多类标聚类树分类方法优化及并行化实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sendan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,多类标分类问题成为学术研究的一个热点,多类标分类技术是解决多类标分类和类标排序两大任务的重要技术手段,为了更有效地解决多类标文本分类问题,一种新的基于聚类树的多类标文本分类算法在2011年被提出,并得到了充分的实验验证但是基于多类标聚类树文本分类算法在分类策略上也存在着不足,没能充分利用类标间的信息,对样本的分类预测完全依赖于类标掩盖数组和纯度同时,随着互联网的发展,数据规模不断扩大,如何在海量数据下加快算法运行速度也是本文关注的问题本文围绕多类标聚类树文本分类算法存在的问题以及如何实现算法并行化的问题进行深入研究,具体研究内容及成果如下:(1)全面对现有的多类标分类算法进行调研和深入分析,总结各算法的优缺点,总结目前基于MapReduce框架的机器学习并行化算法(2)深入阐述多类标聚类树分类算法,分析其理论和算法流程,分析该算法的存在的问题(3)针对多类标聚类树分类算法在分类策略上存在的不足,提出了两种优化策略第一种是基于基分类器的优化策略,使用基分类器在沿着决策路径对待测样本进行辅助分类和类标置信度计算,有助于提高分类器分类的性能第二种是利用皮尔森积差相关系数表示类标间的相关性优化算法,进一步地提升类标排序的性能;(4)针对如何在海量数据下加快算法的运行速度问题,提出算法并行化的思路,进而在MapReduce框架下实现了多类标聚类树分类方法的并行化(5)通过实验,本文证明了两种多类标聚类树文本分类方法的优化策略在评价指标中优胜于原来的算法,同时,实验也表明,基于MapReduce模型的多类标聚类树文本分类方法并行化能够取得不错的性能
其他文献
由于牛奶是国民的重要食物来源之一,因此与奶牛相关的研究一直受到高度重视。而高产与低产奶牛在体型结构上,特别是与乳房相关的体型结构方面有明显的差异,在经历了长期的研
网络文本信息飞速增长,对海量网络文本进行自动分类并从中找出我们所需要的信息是一项非常迫切的需求,然而,传统的全监督学习分类器要想有好的分类效果,首先需要人工标注数据,训练
随着信息处理技术与测绘技术的快速发展,数字矢量地图在地理信息系统、数字化城市和智能交通运输系统得到了广泛应用。数字矢量地图具有易编辑易传播的优点,极大方便了人们的日
布局问题(Packing问题),其研究背景包括印刷电路板(PCB)布局方案设计,航天器舱的布局方案设计,工厂机床摆放问题等。求解这些问题不仅要求待布物能放置在尽可能小的空间内,而且
作为计算机视觉研究领域里最热门和最有前景的识别任务之一,视频中识别人类活动的任务在过去的许多年来引起了研究人员的极大关注。不仅仅是因为这是一个人工视觉系统的基本能
20世纪90年代以来,互联网技术快速发展,网页页面样式也越发多样。现时的网页中,充斥着大量的导航、广告等与页面主体内容无关的信息,这些信息和网页的主体信息混杂在一起,大大增加
人脸标定技术是计算机视觉领域识别人脸几何结构的一门技术,它在人脸处理系统中扮演着重要的角色。后期人脸处理的很多任务,比如人脸识别、人脸姿态估计、人脸表情分析等,都
无线传感器网络是一种自适应很强的自组织网络,大量廉价的节点密集部署在监测区域,时刻监测着环境参数的变化,为人类提供很多关于环境的实时数据。如果说因特网改变了人类之
随着科技的发展以及信息时代的到来,不管是购物,还是科学技术,都离不开计算机。但是现在计算机网络上的信息越来越多,对数据的保护反而没有那么重视,所以信息安全必然成为了全社会
计算机硬件技术和软件功能的提升为分布式软件在嵌入式领域的应用提供了广泛的支持。然而在嵌入式分布式软件的开发和调试中存在着分布式软件运行的“不确定性”,难以同时对多