【摘 要】
:
文本分类是数据挖掘研究的一个热点,支持向量机分类方法在文本分类中表现出了良好的性能。但是支持向量机是针对两类分类问题提出的,而在实际应用中多类分类问题更为普遍,如
论文部分内容阅读
文本分类是数据挖掘研究的一个热点,支持向量机分类方法在文本分类中表现出了良好的性能。但是支持向量机是针对两类分类问题提出的,而在实际应用中多类分类问题更为普遍,如何将它推广到多类分类一直是重要研究内容之一。本文对已有算法进行了深入研究,在传统算法的基础上,结合了本体知识,给出了一种新的基于概念向量的树型支持向量机多类分类方法,并加以实现,与其它方法作一比较。与传统方法抽取关键词构成向量不同,该方法抽取的是概念向量。训练时,先对训练数据进行两类聚类,构造二值SVM分类器,层层进行下去,形成一棵二叉树的结构。对测试数据进行分类的时候,从树根开始调用二值分类器,直到到达叶结点。实验表明,使用概念向量进行聚类和分类提高了准确率。在本实验中,分类正确率提高了2%左右。而且,由于维数的降低,聚类速度和训练速度都得到了提高。
其他文献
南宋乡村社会与当代中国的乡村社会发展有着诸多的相似之处。研究南宋乡村精英参与乡村治理的实践可以为当前乡村社会治理提供有益的历史经验。南宋乡村精英在国家的鼓励、个
元好问在词学理论上有着独特的建树,在承继苏轼以来“以诗为词”的词体观念即“词诗”说的基础上,在其词学思想中形成了一种自觉的词史意识。他还进一步借助于传统诗论,引入“言
高校实施本科生导师制是大学生管理体制、育人体制改革的新理念。本文以燕山大学材料学院实施导师制实践为基础,分析推行导师制的共性问题,为建立切实可行的导师制机制与模式
<正> 1980年8月出版的《辞海》这样解释“历史”:“广义的历史,泛指一切事物的发展过程,包括自然史和社会史。通常仅指人类社会的发展过程,它是史学研究的对象……在习惯上,
意思表示是民法上一个核心的概念,研究意思表示的成立,分析意思表示的构成要件是对民法基本概念的一次再梳理。研究意思表示不同要件缺失情形下对当事人的救济,是完善我国法
以14个苜蓿品种的种子为试验材料,研究不同浓度混合盐碱胁迫对苜蓿种子萌发的影响。结果表明,各苜蓿种子的发芽率、发芽势、发芽指数、活力指数、胚根长度、胚芽长度、干质量
日本著名作家村上春树的代表作《挪威的森林》在中国及世界范围内得到了读者们的广泛喜爱,特别是女主人公直子及以她为中心所形成的“直子的世界”因其沉静与悲伤给人留下了
随着国家宏观调控的不断加强,房地产市场竞争越来越激烈。市场的竞争带来机遇和挑战,利润的驱动促使房地产企业进行投资控制。在这样的条件下,投资控制研究成为房地产企业参
《隋志》对小说家的理解源于《汉志》,其在子部小说家《燕丹子》附注提到的《宋玉子》,不应该是在集部著录的《宋玉集》,而是一部在唐初已经亡佚的小说集。宋玉既是著名辞赋
<正>"中国网络推理小说十年",这个题目实在太庞大了。朋友都对我说:你敢写这个?你就不怕得罪人?也怕,也不怕。我是经历过这段历史的人,便不希望这段历史以后被人忘记了。所以