分布式Boosting算法研究及其在图像目标检测中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:kangbb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Boosting算法是一类可以通过集成弱学习器来提高算法分类精度的机器学习算法,因为其泛化性能良好且高效易用而获得广泛的应用。但当面临大规模的数据集时,传统的单机集中训练会耗费大量的时间,而且对内存资源也是一个挑战。而将单机的标准Boosting算法扩展到分布式环境下以降低训练时间,缓解单机内存压力是一种有效的应对方式。本文首先介绍了两种现有的分布式Boosting算法并分析其优缺点,然后提出一种基于代表子集策略的分布式Boosting算法,接着在Spark分布式计算平台下进行该算法的性能实验,最后将该算法的思路与基于AdaBoost算法的人脸检测方法进行结合。论文的主要内容如下:第一,介绍DistBoost和PreWeak这两种现有的分布式Boosting算法,分析了前者节点的局部训练容易过拟合和后者节点之间需要大量通信次数的问题。第二,在前人对博弈论和Boosting算法联系的研究结果上,提出了一种基于代表子集的分布式Boosting算法,可有效缓解节点局部训练过拟合,同时减少节点间通信次数。其基本思路是从各个分布式节点的训练样本集上选取一个小的代表子集,然后发送到中心节点汇聚然后运行Boosting算法。代表子集需要满足两个条件,首先,它是由在本节点上分类难度较大的样本组成,其次,其训练出的学习器在本节点剩余的数据集中测试的分类误差最小。第三,借助Spark分布式计算平台,采用5台阿里云的ECS云服务器进行实验,对该环境下代表子集Boosting算法的三个自身参数及Spark提交作业的两个运行参数进行了测试和调优,并通过实验对比了标准的单机Boosting算法、DistBoost、PreWeak和本文的代表子集Boosting算法在四个训练数据集上模型训练时间和模型预测的准确率两方面的性能,验证了代表子集Boosting算法可以在稳定接近单机Boosting算法的准确率的同时,有效降低了模型的训练时间。第四,将代表子集Boosting算法的思路与基于AdaBoost算法的人脸检测方法相结合,使该算法的分类器的训练过程扩展到分布式环境下,实验结果表明,这使得人脸检测分类器模型的训练时间相比单机训练的情形明显降低。
其他文献
在2010年6月的日语专业四级考试中,听力部分的试题共20题,分值为20分,全部为单项选择题。试题分为两个部分进行:第一部分为对话题,有18个试题,分值为18分;第二部分为叙述性文
将一个名词外加一个动词复合起来的动词就为“复训”词。这种“复训”的组词方法解决了日语词汇不足的问题。
「物語(ものがたり)」也被称做小说,是日本平安时代至镰仓时代盛行的一种文学类型。早在《古事记》和《日本书纪》中就有“言谈”、“语话”、“语言”、“谈说”等的记载,大多具
对于飞行运行而言,进近和着陆是最容易出现事故和不安全事件的阶段之一。近年来,重着陆不安全事件频发,对飞行安全潜在危害较大。国内和国际上广泛使用机载快速存取记录器(QAR)对飞行各个阶段的飞行品质进行监控。通过大量的查阅资料发现,行业内对于重着陆事件和事故的分析研究,仅停留在单次样本、人工数据筛选和分析。为探寻重着陆事件产生一般原因,本文利用QAR数据进行量化分析,找出引起重着陆的人为和环境风险因素
随着企业的发展壮大,企业面对的市场需求变化迅速和多样,造成企业研发项目的数量每年逐级递增,传统的职能管理已经不能满足项目化运作的需要。越来越多的企业会引入项目管理