论文部分内容阅读
分类问题是数据挖掘领域中常见问题之一。随着传统的数据挖掘分类技术(如逻辑回归、决策树等算法)的不断研究和发展,它们在分类问题上取得了越来越好的效果。但是,这种传统算法在计算上容易陷入过拟合。集成学习可以有效缓解传统的单一分类算法遇到的过拟合问题。Stacking算法是一种特殊的集成方法,它通过结合不同个体学习器的预测结果产生元层学习器,之后对数据进行预测。当训练数据很多时,Stacking算法是一种较强的集成方法。Stacking算法至少有两层学习器,因此Stacking算法具有较长的计算时间。本文针对Stacking算法计算时间较长和样本数据较少的问题,采用类概率输出和多响应线性回归的概念,提出改进的Stacking算法。具体工作内容如下:(1)提出三层的Stacking算法结构。第一层训练原始数据集;第二层采用一种新的输入属性表示以增加第二层的训练数据,同时使得第二层个体分类器的输入属性大小不会随着分类器的增加而增大;第二层用个体分类器对前一层的的学习结果再次学习,以减弱第一层个体分类器输出类概率中的噪声。在预测时加入投票策略得到样本的类别。为了智能的选择改进的Stacking算法中的个体分类器,用遗传算法优化改进的Stacking算法,对算法的个体分类器组合进行优化。(2)在多个UCI数据集和ORL图像数据集上进行实验,并比较改进算法与其它算法在准确率,查准率,F1值和运行时间上的结果。结果表明该算法在准确率、查准率和F1值上都显著优于其他集成方法。在运行时间上比传统的基于概率分布和多响应线性回归的Stacking算法在大部分数据上都有所降低。同时遗传算法优化得到的分类器的预测效果和人工调参得到的分类器的预测效果相当,这说明在优化改进的Stacking算法中可以用遗传算法代替人工调参。