论文部分内容阅读
文本相似度计算主要是通过建立算法模型计算两个或者多个文本信息之间内容、语法、结构的相似程度,它是实现文本信息处理的一项关键技术,很多重要的研究应用都与它相关。文本相似度计算大多采用词频统计的方法,其中最具代表意义的是向量空间模型VSM,它将文本表示成特征项向量,利用特征项向量夹角余弦表示文本相似度。除此之外还有基于广义空间向量模型GVSM算法、隐形语义索引LSI算法、基于字符串的匹配算法、指纹识别算法等等。基于语义理解的文本相似度计算方法,通常以某种知识库作为依据,加入词语语义、句子语义、段落语义等因素,计算结果更加适用于实际应用中。传统的《知网》文本相似度算法是建立在VSM模型的基础上,将文本所有特征项向量表示为文本《知网》义原空间向量,加入了对词汇语义因素的考量。本文在原有算法的基础上做出改进,一方面利用《知网》的义原层次结构,对义原的相似度计算方法做出改进,添加语义深度和语义密度因素,使计算结果更加完善,另一方面在原有算法的基础上加入段落相似度,增加段落相似度对整个文本相似度的影响。本文采用文本聚类方法对提出的本文算法有效性进行验证,通过对文本聚类的实验,证明了算法性能的提高。本文根据相似度算法理论研究,采用J2EE技术构架和相关开源技术实现文本相似度系统。本文系统设计根据功能划分为四个模块:《知网》数据处理模块、文本预处理模块、文本向量构建模块、综合计算模块,对于不同模块给出设计和实现方案,系统采用NLPIR、Lucene、SSH等开源软件完成对文本义原的表示和相似度的计算过程。最后本文实现的相似度系统应用到实际的工程中,取得了不错的效果。