论文部分内容阅读
传统监督学习,通过对外界给定的已标注样本集构建训练集进行训练,归纳出模型,但构建正确率满足要求的分类器常常需要大量的训练样本,这样就要花费大量的时间进行评价、标注样本。为了解决这个问题,则需要研究一种方法能够在减少训练样本的同时,提升分类器的分类性能。于是,主动学习作为解决这类问题的一种方法被提出来,该算法能够从未标注样本集中选择信息量最大的样本交由用户进行标注,在减少所需评价的样本数量的同时,不断完善自身的识别效果。SVM基于结构风险最小化原理,避免了局部最优问题,用核函数在输入空间计算特征空间的向量点积,避免了维数灾难问题,最优分界面使得SVM在小训练样本条件下也具有高的泛化能力。而主动学习算法具有需要训练样例较少,受不平衡训练样例干扰较小等特点,与SVM组合能降低构建高性能分类器的代价,获得较高的分类性能。因此,本文采用主动学习与支持向量机相结合的分类算法,并针对传统SVM主动学习算法对不均衡数据集学习能力较差导致SVM主动学习在选择过程中选择效率较低的问题引入了一种均衡采样的SVM主动学习算法(BC-SVM)。同时,由于初始样本集会影响SVM主动学习的收敛,本文在BC-SVM的基础上采用模糊聚类构建初始样本集,并改进模糊选择算法模型,提出了一种模糊聚类的均衡采样SVM主动学习算法(FBC-SVM),使得初始样本的选取更具代表性和信息量,加速SVM主动学习算法的收敛。同时,本文还分析了SVM主动学习询问机制的算法复杂度,在对Hadoop平台的研究基础上,利用Hadoop对SVM主动学习询问机制进行Map/Reduce化,使Hadoop对SVM主动学习询问机制能并行地运行在Hadoop平台之上。在有效地利用了多台计算机的运算能力后,通过实验证明了Hadoop平台下的SVM主动学习询问机制能有效地调度每台计算机的计算资源,减少高维数据分类的运行时间。