基于双标签支持向量机的快速多标签分类算法

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:wwt74105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是指通过对已知类别的样本集的学习,来预测未知类别样本的问题。对于分类问题而言,根据样本集合所拥有的标签数,可分为两类问题和多类问题;而按样本所拥有的标签数,可分为单标签分类问题和多标签分类问题。这里所说的多标签分类问题,是指一个样本可以同时拥有多个标签或者一个样本同时属于多个类别。在实际生活中,多标签问题越来越多的得到人们的广泛关注和认可,例如,蛋白质分类、文本分类和景观分类等。目前,广泛使用的处理多标签问题的方法有基于数据分解的方法和基于单个优化问题的方法。   对于多标签分类问题,采用“一对一”的分解策略与支持向量机相结合的算法已经逐渐成为一种行之有效的处理方法。但如何提高算法的训练和测试的效率却仍然是一个富有挑战性的课题。为了提高多标签分类算法的效率,本文推广经典两类支持向量机提出了一种两类双标签支持向量机。在算法中,将同时拥有正类标签和负类标签的样本看作为双标签样本,将双标签样本置于正类样本和负类样本的中间区域。我们采用投票策略集成子分类器设计出快速多标签分类算法。本文中基于双标签支持向量机的快速多标签分类算法通过用著名的SVMlight算法来实现。   在算法的实验部分,本文归纳了一些常用的多标签分类算法的评价准则,并在四个基准数据集酵母数据集、景观数据集、情感数据集和基因数据集上来进行实验,并通过与现存的一些多标签分类算法在分类性能上的比较得出,没有一个多标签分类算法在所有的评价准则上均保持最优,而我们的算法无论是在哪个基准数据集上,总体上均居于前列,这说明我们的算法总体性能良好。在算法的训练时间上,我们将我们的算法与其他两个基于支持向量机的分解算法以及基于三类支持向量机的快速多标签分类算法进行比较,对于景观与情感数据集,我们的算法的运行效率是这三种算法的3倍以上。因此,本文所提出的算法具有良好的运行效率。而在能够决定测试时间的支持向量个数上,我们的算法在标签总数较少的数据集上也具有很大优势。
其他文献
时间序列预测在生活和工农业生产中扮演着越来越重要的角色,它的应用遍及很多领域,极大地推动了各个领域的发展。支持向量机(SVM)是基于统计学习理论的方法,由于其具有全局最优
随着移动互联网的快速发展,基于位置的服务在某些领域得到广泛应用,如:旅游服务、车辆导航等。人们在享受服务的同时,新的问题出现了:位置隐私泄露。位置信息与人们的日常生
近年来,随着电子信息,通信以及计算机科学的快速发展,脑电信号处理所需要的理论和技术也越来越完善,因而脑机接口(Brain.Computer Interface,BCI)的研究开始成为热点。脑机接
当前国内的中小型软件开发公司在软件开发过程中,普遍存在着项目管理困难的问题。同时,项目管理人员还面临着项目资源有限、计划变更频繁、反应迟缓等问题。当前的项目管理软
近年来,随着计算机技术的飞速发展和芯片制造工艺的不断进步,嵌入式实时操作系统ERTOS(Embedded Real—Time Operating System)逐渐渗透到科学研究、工程技术等各个领域,其性
学位
随着全国数字电视整体转换工程的推进,数字电视的平板化、大屏化和高清化,地面数字电视信号的开播、融合芯片的量产,以及日益丰富的高清互动应用,新型互动数字电视已深入到千家万
随着因特网的普及与发展,XML语言被普遍用于异构信息和异构平台的数据交换和数据共享。为了推动XML数据查询和处理的标准化,国际万维网组织W3C组织发展了XQuery语言,并将其作
随着通信技术的高速发展,降低传输中的数码率成为一项关键问题。为了降低传输的费用,必须对采用模/数转换技术得到的语音信号进行压缩。这也就促使了语音压缩编码技术的不断
藏语自然语言处理是一门自然科学与社会科学的交叉学科,集藏语语言学、计算机科学、数学、逻辑学和心理学,研究人与人、人与计算机之间交流的一种语言问题。相对而言藏语自然