Hadoop平台下基于SVM主动学习的分类算法研究

被引量 : 0次 | 上传用户:blackboy1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统监督学习,通过对外界给定的已标注样本集构建训练集进行训练,归纳出模型,但构建正确率满足要求的分类器常常需要大量的训练样本,这样就要花费大量的时间进行评价、标注样本。为了解决这个问题,则需要研究一种方法能够在减少训练样本的同时,提升分类器的分类性能。于是,主动学习作为解决这类问题的一种方法被提出来,该算法能够从未标注样本集中选择信息量最大的样本交由用户进行标注,在减少所需评价的样本数量的同时,不断完善自身的识别效果。SVM基于结构风险最小化原理,避免了局部最优问题,用核函数在输入空间计算特征空间的向量点积,避免了维数灾难问题,最优分界面使得SVM在小训练样本条件下也具有高的泛化能力。而主动学习算法具有需要训练样例较少,受不平衡训练样例干扰较小等特点,与SVM组合能降低构建高性能分类器的代价,获得较高的分类性能。因此,本文采用主动学习与支持向量机相结合的分类算法,并针对传统SVM主动学习算法对不均衡数据集学习能力较差导致SVM主动学习在选择过程中选择效率较低的问题引入了一种均衡采样的SVM主动学习算法(BC-SVM)。同时,由于初始样本集会影响SVM主动学习的收敛,本文在BC-SVM的基础上采用模糊聚类构建初始样本集,并改进模糊选择算法模型,提出了一种模糊聚类的均衡采样SVM主动学习算法(FBC-SVM),使得初始样本的选取更具代表性和信息量,加速SVM主动学习算法的收敛。同时,本文还分析了SVM主动学习询问机制的算法复杂度,在对Hadoop平台的研究基础上,利用Hadoop对SVM主动学习询问机制进行Map/Reduce化,使Hadoop对SVM主动学习询问机制能并行地运行在Hadoop平台之上。在有效地利用了多台计算机的运算能力后,通过实验证明了Hadoop平台下的SVM主动学习询问机制能有效地调度每台计算机的计算资源,减少高维数据分类的运行时间。
其他文献
水资源是最基础的自然资源,是生态环境的决定性和控制性因素,是人类历史和文化得以发展、延续的核心资源之一,也是城市形成和发展的必要条件。城市快速发展给城市带来了一系
近20年来,中国经济一直保持着高速发展的状态,随着这些年这一状态的结束,中国经济进入历史性的新常态时期。在经济新常态的形势下,经济增长速度由高速增长转为中高速增长,经
燃气领域的置换主要是高中低压管道的置换和气柜/大型储罐的置换,从置换工艺的角度而言无外乎是燃气置换成空气或者空气置换成燃气。如果不考虑成本,采用氮气作为中间过渡介
复杂背景下红外小目标探测与跟踪技术是一种在军事和民用诸多领域有着广泛应用前景的技术。但由于小目标在图像中所占像素少,目标的细节特征丢失,很难与杂波形成有效区分。致
高分子表面活性剂由于其单个分子体积大,空间屏蔽作用和静电斥力强,能够更好地帮助颜料粒子稳定分散在溶剂中,在涂料、油墨等领域发挥着重要作用。鉴于非离子型聚醚结构的二
船舶用厚板是钢铁板材产品中重要的战略产品之一,而能适应大线能量焊接的船用厚板是近年来造船业最为迫切的需求。由于大线能量焊接过程焊缝附近长时间经历高温过程,钢板焊接
都市圈的形成和发展已经在世界经济发展进程中发挥着越来越重要的作用,促进都市圈的形成和发展已经成为世界各国经济发展的必然选择,尤其是在全球化和信息化的时代,都市圈的
准确测定阿伏加德罗常数是实现用原子质量重新定义质量单位kg的有效途径。介绍了阿伏加德罗常数测定的历史、进展和前景。阿伏加德罗常数是联系宏观世界和微观世界的桥梁,是
在有序推进农村宅基地退出的政策创新与实践过程中,那些具有进城定居意愿的农民工无疑是首要考虑的对象。对目前在江苏省南京市工作的江苏籍农民工进行抽样问卷调查,分析有进
<正>今天的文坛已经明显出现的"新旧分制"格局——这格局自新世纪以来暗暗形成,至今已是不可逆转。笔者试图从文学生产的传统机制和新型机制的分野、交锋、整合的角度关注这
会议