论文部分内容阅读
随着互联网技术的迅速发展和普及,人们日常需要处理的信息日益丰富。面对海量的信息资源,人们很难迅速有效地找到真正所需的信息资源。文本分类技术作为信息过滤、信息检索、搜索引擎、数字化图书馆等领域的技术基础,有着广泛的应用。为了解决传统基于统计的文本表示方法中词语间语义信息缺失的问题,本文结合图论中的理论,提出了一种新的基于语义图结构的文本表示模型和中文文本分类方法。论文首先对语义图结构和基于语义图结构的文本之间的相似度计算方法进行了定义,通过将文本表示成语义图结构,有效地解决了文本表示过程中的语义信息流失问题;其次,给出了基于语义图结构的文本分类算法;最后,介绍了一种基于语义图结构的文本分类系统RCSGC。实验表明,与传统的基于统计向量的SVM(支持向量机)等方法相比,RCSGC方法更有利于文本的语义信息的表示。实验表明:该方法比传统的SVM方法有更好的性能。