论文部分内容阅读
学习方法的泛化能力是机器学习及其应用过程中所面临的关键性挑战问题。集成学习通过训练多个个体并将其结果进行合成,显著地提高了学习系统的泛化能力,成为近年来机器学习领域一个重要的研究方向,并被国际权威T.G Dietterich称为当前机器学习四大研究方向之首。设计出更有效的集成学习实现方法,以提高集成学习的泛化能力,并将集成学习应用到实际问题领域中取得很好的效果,是集成学习研究的热点问题。特征选择也是机器学习领域的重要问题,特征选择可以去除冗余特征、无关特征、甚至噪声特征,从而可以得到一个无冗余、无噪声的样本集。可以有助于提高模式识别的识别率,机器学习的精度。一个特征选择的过程在原理上可以看成是一个组合优化过程,在原有的特征中选择其中的一部分,使某个特定的评价函数最优。现在机器学习领域有许多算法与特征选择密切相关,比如集成学习和多任务学习,如何结合集成学习和特征选择算法,设计出更加有效的集成学习实现方法,提高集成学习的泛化能力,是个很重要的研究方向。本文在分析集成方法研究现状的基础上,运用特征选择算法围绕提高集成学习方法的泛化能力展开了深入的研究,提出了更有效的集成学习方法,提高了集成学习的精度并且研究了新算法在实际数据上的应用。特征选择后,一些没有选中的特征可能就不再进入学习器,如何利用这些特征提高学习器的精度是一个重用的问题。本文将已经提出的多任务学习技术,应用到集成学习当中,取得了很好的效果。本文的主要工作和创新点如下:(1)研究了集成学习中个体的特征选择的问题。首先对每个个体的训练数据集进行特征选择,降低了数据集的规模,减少了无效特征和冗余特征的干扰。提出了基于预报风险的嵌入式特征选择算法的集成学习方法PRIFEB(Prediction Risk based Feature sElection for Bagging)和基于互信息特征选择算法的集成学习算法MIFEB(Mutual Information based Feature sElection for Bagging)。并作了相应的对比实验,结果表明这两种新算法提高了集成学习的泛化能力。(2)研究了数据集在经过特征选择之后冗余的信息如何被重用的问题,并将多任务学习的概念推广到集成学习中。充分利用经过特征选择之后被删除的冗余特征的信息,提出了基于预报风险的多任务学习算法H-MTL(Heuristic Multi-Task Learning)、基于遗传算法的多任务学习算法GA-MTL(GeneticAlgorithm based Multi-Task Learning)和基于遗传算法的集成多任务学习算法GA-ENMTL(Genetic Algorithm based Ensemble Multi-Task Learning),实验表明这些算法充分利用了经过特征选择之后被删除的冗余特征信息,提高了集成学习的泛化能力。(3)研究了集成学习中的个体选择问题。利用特征选择算法进行集成个体的选择,选择出个体差异度大的个体用于集成。提出了基于互信息算法的选择性集成学习算法MISEN(Mutual Information based Selective ENsemble),实验表明该算法提高了集成学习的效果,同时提高了选择个体的效率。(4)研究了基于特征选择的半监督学习问题。通过运用特征选择算法去除数据的无效特征和冗余特征,提出了基于预报风险的嵌入式特征选择算法的Co-Training半监督学习算法FESCOT(FEature Selection Co-Training)。实验表明新算法可以有效地提高半监督学习的泛化能力。