论文部分内容阅读
文本分类(Text Classification, TC)是指把文本归到预定义的一个或多个类别中,这一任务在众多信息管理系统具有广泛的需求。目前已经出现了许多分类算法,如支持向量机、朴素贝叶斯、决策树、神经网络、K-近邻等。随着网络技术的发展,文本分类也出现了一些新的需求,例如,预定的类别数目庞大、训练样本是逐渐增加的等,这些新需求也导致对文本分类技术的进一步研究。本文在已有研究的基础上,着重研究基于SVM (Support Vector Machine)决策树的增量式文本层次分类中的两个关键技术,其一是构造有效、合理的基于SVM决策树的层次分类结构;其二是实现基于SVM决策树的层次分类器模型的增量更新。具体的研究工作包括如下几个方面:(1)在构造文本层次结构方面,本文提出了一种新的基于SVM决策树的多分类算法。该方法通过设计合理的类间可分性度量公式,把可分性最好的类划分方案放在父结点分类器执行,并结合决策树结构构建决策树SVM分类器。实验表明了该方法的有效性。(2)在增量学习方面,本文采用基于KKT条件的SVM增量学习方法增量更新层次分类器。实验表明,该算法在获得较好的分类效果的同时,能有效减少训练时间和测试时间,因此,具有很好的实用价值。