Stacking算法的研究及改进

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wyp154
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘领域中常见问题之一。随着传统的数据挖掘分类技术(如逻辑回归、决策树等算法)的不断研究和发展,它们在分类问题上取得了越来越好的效果。但是,这种传统算法在计算上容易陷入过拟合。集成学习可以有效缓解传统的单一分类算法遇到的过拟合问题。Stacking算法是一种特殊的集成方法,它通过结合不同个体学习器的预测结果产生元层学习器,之后对数据进行预测。当训练数据很多时,Stacking算法是一种较强的集成方法。Stacking算法至少有两层学习器,因此Stacking算法具有较长的计算时间。本文针对Stacking算法计算时间较长和样本数据较少的问题,采用类概率输出和多响应线性回归的概念,提出改进的Stacking算法。具体工作内容如下:(1)提出三层的Stacking算法结构。第一层训练原始数据集;第二层采用一种新的输入属性表示以增加第二层的训练数据,同时使得第二层个体分类器的输入属性大小不会随着分类器的增加而增大;第二层用个体分类器对前一层的的学习结果再次学习,以减弱第一层个体分类器输出类概率中的噪声。在预测时加入投票策略得到样本的类别。为了智能的选择改进的Stacking算法中的个体分类器,用遗传算法优化改进的Stacking算法,对算法的个体分类器组合进行优化。(2)在多个UCI数据集和ORL图像数据集上进行实验,并比较改进算法与其它算法在准确率,查准率,F1值和运行时间上的结果。结果表明该算法在准确率、查准率和F1值上都显著优于其他集成方法。在运行时间上比传统的基于概率分布和多响应线性回归的Stacking算法在大部分数据上都有所降低。同时遗传算法优化得到的分类器的预测效果和人工调参得到的分类器的预测效果相当,这说明在优化改进的Stacking算法中可以用遗传算法代替人工调参。
其他文献
人的运动,是一个伴随着物理变化、化学变化和心理变化的矛盾统一过程,必须进行多学科的综合研究.
手工书画纸作为高级文化用纸,存在着悠久的历史。手工书画纸的原料多采用构皮、桑皮、竹、青檀皮、稻草等。选择不同的原料就有着不同的造纸工艺,但总体而言,手工书画纸一般
不同的体质类型对疾病有不同的易感性,体质是可以改变的。通过探讨胃食管反流病患者的体质特点,并对其进行预防,以减少胃食管反流病的发生,达到“治未病”的目的。
伴随着虚拟现实技术的发展,教育研究领域对虚拟现实技术的需求变得尤为强烈。中国是世界上最早将VR技术列为国家科技发展战略的国家,2006年,国务院制定了《国家中长期科学和
高质量的教师队伍是高质量教育的一个基本条件,教学技能是教师最基本的职业技能.通过对师范生教学技能大赛中所反映出来的问题进行归纳,对问题的原因进行分析,在此基础上,对
目的 探讨急性肾小球肾炎尿液代谢组。方法 选取2014年2月到2015年8月收治的100例急性肾小球肾炎患者,取全部患者新鲜的尿液标本,使用尿液液相色谱-质谱((LC-MS)联用仪附带相关
随着社会经济的不断发展,我国休闲农业产业化发展不断推进,并逐渐实现规模经济化以及产业集聚化的发展现状。但是由于我国当前的休闲农业的主要经营模式都是个体产业经营类型
<正> 近代化是中国近代史的重要内容之一。近代化的事业需要具有近代化知识和技能的新型人才,随着晚清中国近代化运动的兴起,中国的近代化教育也应运而生。所谓"近代化教育",
在瓦屋山定位研究了中亚热带湿性常绿阔叶林次生群落 1 5a来各乔木种群组成及其重要值、密度、大小结构、高度结构和材积生产力等的动态变化。结果表明 :自然恢复过程中次生