论文部分内容阅读
集成学习,是先将样本提供给多个学习模型,再采取投票或是级联等方法把这些学习模型的输出集成起来的学习模型。集成学习采用合成多个学习模型的输出,能够显著的提高学习模型的泛化能力。
本文主要是对异质集成算法的研究,通过对异质集成算法的深入分析,提出一种泛化能力好的新型异质集成算法,并对新提出的算法进行理论分析和实验检验。
本文的主要工作和创新点如下:
(1)提出了一种新的异质混合集成算法。
个体学习器训练子集生成方面:在提取训练子集的过程中基于Bagging技术,从原始训练集中重复选取。为了增强各个训练子集的独立性,采用随机子空间法来提取训练子集。
个体学习器模型选择方而:采用决策树和神经网络混合的方式来训练个体学习器。由于决策树和神经网络等模型易于陷入空间局部最小,因此容易产生差异较大的个体学习器。
结论集成方面:采用支持向量机来对个体学习器的结论进行集成。支持向量机在防止过度拟合、运算速度和结果精度等方面表现出明显的优越性。本文将每个个体学习器的输出结论作为一维特征,用所有个体学习器的输出结论组成新的数据集,最后使用支持向量机在新的数据集上进行学习和预测。
(2)对新提出的异质混合集成算法给出泛化误差和个体学习器差异度的数学模型,并依据提出的数学模型指导算法的参数优化。
(3)采用此算法进行了灰霾预测实验。选取济南市2011年1月、4月、7月和10月二十四小时气象和污染物排放的实测和预测数据作为实验数据,用本文提出的数学模型指导算法的参数设置,在采用本文提出的算法对济南市的灰霾预测实验中,取得了理想的预测精度。对比实验表明,本文提出的异质混合集成算法的预测精度明显好于神经网络、决策树和AdaBoost.M1。