论文部分内容阅读
面对网络上日益增多的论文,如何快速有效地检索出符合使用者需要的论文成为论文检索所要面临的一个难题。目前常用的方法是基于关键词匹配的方法,该方法查询速度快,但是没有解决同义词、多义词及词语概念上下位等问题,检索效果不尽如人意。如果利用文本聚类技术,对检索结果进行进一步的处理,把检索结果集合按照其相关主题进行划分,生成不同主题的簇,同时删除冗余的项,为用户提供一个清晰的导航。这将大大的有利于用户发现自己所需的相关论文,提高论文检索的质量。本文改进了一种基于语义相似度的文本聚类算法(TCUSS算法)并将其应用于论文文本聚类。改进后的算法提出了一种适合论文文本的特征选择方法和聚簇描述方法,文本数学表示方法和聚类算法通过对TCUSS算法针对论文文本进行一定改进得到。在特征选择和聚簇描述中,算法利用论文关键词能较好的表达文章主题这一特点,结合WordNet语义词典,围绕关键词所表达的概念进行特征提取,还利用用词典中的同义词集和计算特征词间的语义相似度分别解决了同义词与多义词问题;在论文文本数学表示方面,本文采用概念列表表示文本;在词语相似度计算中,用关键词所在概念节点代替关键词,计算概念节点在WordNet中的语义距离,根据语义距离计算词语相似度;文本相似度通过计算特征词间的相似度获得;采用了一种基于语义相似度的文本聚类算法,该算法结合了图的理论进行聚类分析,避免了算法对聚簇形状的限制;用特征词在整个聚簇中出现的词频和其在WordNet中包含的信息量来衡量特征词权重,选取部分权重大的特征词进行聚簇描述。最后为了检验算法的有效性,设计了一个基于语义相似度的论文文本聚类系统,并通过自建论文文本数据集上与TCUSS算法和K-Means算法的对比实验证明,该算法对于论文文本聚类具有较高的分类正确率,具备一定的实用性。