论文部分内容阅读
近年来,多类标分类问题成为学术研究的一个热点,多类标分类技术是解决多类标分类和类标排序两大任务的重要技术手段,为了更有效地解决多类标文本分类问题,一种新的基于聚类树的多类标文本分类算法在2011年被提出,并得到了充分的实验验证但是基于多类标聚类树文本分类算法在分类策略上也存在着不足,没能充分利用类标间的信息,对样本的分类预测完全依赖于类标掩盖数组和纯度同时,随着互联网的发展,数据规模不断扩大,如何在海量数据下加快算法运行速度也是本文关注的问题本文围绕多类标聚类树文本分类算法存在的问题以及如何实现算法并行化的问题进行深入研究,具体研究内容及成果如下:(1)全面对现有的多类标分类算法进行调研和深入分析,总结各算法的优缺点,总结目前基于MapReduce框架的机器学习并行化算法(2)深入阐述多类标聚类树分类算法,分析其理论和算法流程,分析该算法的存在的问题(3)针对多类标聚类树分类算法在分类策略上存在的不足,提出了两种优化策略第一种是基于基分类器的优化策略,使用基分类器在沿着决策路径对待测样本进行辅助分类和类标置信度计算,有助于提高分类器分类的性能第二种是利用皮尔森积差相关系数表示类标间的相关性优化算法,进一步地提升类标排序的性能;(4)针对如何在海量数据下加快算法的运行速度问题,提出算法并行化的思路,进而在MapReduce框架下实现了多类标聚类树分类方法的并行化(5)通过实验,本文证明了两种多类标聚类树文本分类方法的优化策略在评价指标中优胜于原来的算法,同时,实验也表明,基于MapReduce模型的多类标聚类树文本分类方法并行化能够取得不错的性能