基于SVM决策树的增量式文本层次分类研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:zhuyanhua421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类(Text Classification, TC)是指把文本归到预定义的一个或多个类别中,这一任务在众多信息管理系统具有广泛的需求。目前已经出现了许多分类算法,如支持向量机、朴素贝叶斯、决策树、神经网络、K-近邻等。随着网络技术的发展,文本分类也出现了一些新的需求,例如,预定的类别数目庞大、训练样本是逐渐增加的等,这些新需求也导致对文本分类技术的进一步研究。本文在已有研究的基础上,着重研究基于SVM (Support Vector Machine)决策树的增量式文本层次分类中的两个关键技术,其一是构造有效、合理的基于SVM决策树的层次分类结构;其二是实现基于SVM决策树的层次分类器模型的增量更新。具体的研究工作包括如下几个方面:(1)在构造文本层次结构方面,本文提出了一种新的基于SVM决策树的多分类算法。该方法通过设计合理的类间可分性度量公式,把可分性最好的类划分方案放在父结点分类器执行,并结合决策树结构构建决策树SVM分类器。实验表明了该方法的有效性。(2)在增量学习方面,本文采用基于KKT条件的SVM增量学习方法增量更新层次分类器。实验表明,该算法在获得较好的分类效果的同时,能有效减少训练时间和测试时间,因此,具有很好的实用价值。
其他文献
在当今世界,交换信息已经是司空见惯的事。要想通过计算机进行信息交换,需要进行网络连接。在最近10年里,计算机局域网和广域网的技术和产品得到飞速增长。随着Internet的普及和
作为优秀的32位操作系统平台,Windows 2000和Windows NT以先进而稳定的特性在先进操作系统市场保持领先的地位,使其成为构建大多数应用系统的首选操作系统。但由于Windows系列
CONFIG程序是支持飞机设计的工程信息集成管理系统中的一个主要组成部分,主要对飞机设计过程中产生的计算机文件进行管理。它向用户提供文件的发放、提取、校验、批准、版本管