论文部分内容阅读
机器学习的方法在生产和科研中都有着广泛的应用,而集成学习则是机器学习领域中一门重要的研究分支。集成学习是把一系列基学习器结合在一起再做预测的一种方法。在理论和实践中集成学习都被证明是一种极其有效的提高算法泛化能力的手段。然而,现有的一些集成学习算法有时会产生一些不必要的过大的基学习器的集合,这就导致了一些计算上的浪费和额外的存储开销。在这种情况下,我们自然的提出了疑问,是否集合中每一个学习器都是必要的。而有研究证明,从集成学习中选择出的子集可能要比整个集合的效果更好。由此,选择性集成学习诞生了。选择性集成学习算法的目的就是在集成学习的基学习器的集合中选择出其中的一部分子集再做集合,而且要保证相对于原集成学习来说,选择后的效果至少要是可比较的或者是更好。
根据算法设计的不同,选择性集成学习算法又可大概分为基于聚类的方法、基于排序的方法和基于优化的方法。在选择的过程中,如何权衡单个学习器的精度和多样性是算法设计的关键。本文中,我们提出了一种将选择性集成学习的问题构建成一种组合优化问题的方法,优化的目标是同时最大化集合的精度和多样性。精确求解这样一个问题是非常困难的,幸运的是我们可以将问题松弛和变换成一种基于特征优化的问题,并且能够非常有效的求解并保证全局收敛。大量具有说服力的实验结果表明,我们的算法要比现有效果最好的选择性集成学习算法的性能要好。
本文的内容包括:(1)简要回顾了集成学习的研究背景和国内外研究现状;(2)介绍现有一些集成学习中所涉及到的技术,如集成结合的方法、多样性衡量等;(3)总体上概述一下选择性集成学习算法,并详细介绍现有一些效果比较好的选择性集成学习算法;(4)从问题的提出到算法的详细设计,详细介绍我们提出的基于特征优化的选择性集成学习算法;(5)通过大量的对比实验来证明文中所提算法的有效性。