论文部分内容阅读
文本是信息的重要载体,人类可以获得的信息大部分都是以文本形式存在的。文本聚类可以发现相似的文本,分析文本之间内在的联系,在很多的领域有着广泛的应用。本文首先介绍文本聚类的相关技术,重点分析其中的文本表示方法和文本聚类算法;然后介绍后缀树聚类算法,它的提出者Zamir和Eztrion做了开创性的工作,后来基于后缀树的文本聚类方法基本上都是在其基础上进行的;最后本文介绍基于后缀树的向量空间模型并借鉴前人的研究得到了一种基于后缀树的文本加权表示方法和改进的特征项权重计算方法。与传统将文本视为完全无结构的数据不同,本文认为文本受人们书写习惯的影响具有一定的组织结构。本文借鉴网页文本的加权方法得到了针对普通文本的加权方法。由于本文使用短语作为文本的特征项,而一般情况下含有更多单词的短语更能表示文本内容,我们为其赋予了更大的权重。本文使用了Reuters21578、20Newsgroups和Classic4文本数据集对本文提出的改进方案进行了验证,实验表明改进的方法在大多数情况下提高了文本聚类效果,是一种可行的方法。