论文部分内容阅读
随着计算机技术的快速发展和网络的日益普及,用户可获取的信息量呈现指数级增长,极大地丰富了用户所处的信息环境,但是,同时造成了信息过载等问题,增加了用户获取所需信息资源的难度。文本分类作为一种简单有效的解决方法,被认为是处理和组织大量文本数据的关键技术,获得了广泛的关注,具有广阔的应用前景。当前对于文本分类的研究主要是从技术角度进行算法改进研究,本文从知识组织的角度提出改进策略,以满足信息层次化组织管理的需求,具体是指:以数据库中标引经验数据为基础,结合《中图法》的类目层次结构,构建了一个多层次知识库,并基于该知识库实现了自顶向下的多层次文本自动分类。全文共分为四部分:(1)绪论部分:主要介绍了论文的研究背景和意义,并给出本文的主要内容和结构。(2)理论和综述部分:对分类知识库和多层次文本分类两个概念及其相关理论基础做了详尽的介绍,并且综述了国内外相关研究。(3)实验设计部分:在理论和综述的基础上,提出了本文的研究方法,具体包括两个主要模块,一是基于《中图法》构建多层次的分类知识库,二是基于知识库实现自顶向下的多层次文本自动分类。通过对涉及到1497个类别的6万余条的语料进行训练获得分类模型,采用300条测试语料做测试,证实加入类别层次有助于改善分类性能,即从知识组织的角度优化文本分类具有可行性。(4)总结部分:对本文的研究结果作总体概况,并总结了文章的不足之处以及下一步工作需要改进的方面。