论文部分内容阅读
文本分词和特征表示是文本处理领域的两个重要问题。本文在这两个问题上提出了新的见解,并且在文本分类的应用环境中对提出的方法进行了探讨。
大部分文本分词系统都是基于词典的,词典的存储机制对于分词的效率有决定性的影响。本文调整了互关联后继树的索引结构,用来存储中文词表。文中详细介绍了这种词表结构,并描述了建立在这一词表上的分词算法。此算法利用词语的词性信息,用匹配句模的方式排除切分歧义,取得了不错的效果。
传统的文本表示方法以词语作为表示文本特征的单位,这种方法有一定的局限性。本文提出文本的概念特征表示,用概念取代词语作为文本的特征,以更简洁的方式表现原文。我们介绍了知网语义词典,提出了一种对其中的概念进行归结的算法。将归结后的概念信息附加在词表上,就建立了词语和概念之间的映射。这样,在分词过程中,就可以同时产生文本的概念特征表示。
我们将概念特征表示模型应用于文本分类中,以验证其有效性。我们选取了KNN分类方法和带词频的关联规则分类法,将它们移植到概念表示模型上,给出详细的算法描述,并通过实验证明概念表示模型具有更好的分类效果。