论文部分内容阅读
分类问题是指通过对已知类别的样本集的学习,来预测未知类别样本的问题。对于分类问题而言,根据样本集合所拥有的标签数,可分为两类问题和多类问题;而按样本所拥有的标签数,可分为单标签分类问题和多标签分类问题。这里所说的多标签分类问题,是指一个样本可以同时拥有多个标签或者一个样本同时属于多个类别。在实际生活中,多标签问题越来越多的得到人们的广泛关注和认可,例如,蛋白质分类、文本分类和景观分类等。目前,广泛使用的处理多标签问题的方法有基于数据分解的方法和基于单个优化问题的方法。
对于多标签分类问题,采用“一对一”的分解策略与支持向量机相结合的算法已经逐渐成为一种行之有效的处理方法。但如何提高算法的训练和测试的效率却仍然是一个富有挑战性的课题。为了提高多标签分类算法的效率,本文推广经典两类支持向量机提出了一种两类双标签支持向量机。在算法中,将同时拥有正类标签和负类标签的样本看作为双标签样本,将双标签样本置于正类样本和负类样本的中间区域。我们采用投票策略集成子分类器设计出快速多标签分类算法。本文中基于双标签支持向量机的快速多标签分类算法通过用著名的SVMlight算法来实现。
在算法的实验部分,本文归纳了一些常用的多标签分类算法的评价准则,并在四个基准数据集酵母数据集、景观数据集、情感数据集和基因数据集上来进行实验,并通过与现存的一些多标签分类算法在分类性能上的比较得出,没有一个多标签分类算法在所有的评价准则上均保持最优,而我们的算法无论是在哪个基准数据集上,总体上均居于前列,这说明我们的算法总体性能良好。在算法的训练时间上,我们将我们的算法与其他两个基于支持向量机的分解算法以及基于三类支持向量机的快速多标签分类算法进行比较,对于景观与情感数据集,我们的算法的运行效率是这三种算法的3倍以上。因此,本文所提出的算法具有良好的运行效率。而在能够决定测试时间的支持向量个数上,我们的算法在标签总数较少的数据集上也具有很大优势。