基于语义理解的文本相似度计算研究与实现

来源 :中国科学院大学 | 被引量 : 24次 | 上传用户:Erinhim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算主要是通过建立算法模型计算两个或者多个文本信息之间内容、语法、结构的相似程度,它是实现文本信息处理的一项关键技术,很多重要的研究应用都与它相关。文本相似度计算大多采用词频统计的方法,其中最具代表意义的是向量空间模型VSM,它将文本表示成特征项向量,利用特征项向量夹角余弦表示文本相似度。除此之外还有基于广义空间向量模型GVSM算法、隐形语义索引LSI算法、基于字符串的匹配算法、指纹识别算法等等。基于语义理解的文本相似度计算方法,通常以某种知识库作为依据,加入词语语义、句子语义、段落语义等因素,计算结果更加适用于实际应用中。传统的《知网》文本相似度算法是建立在VSM模型的基础上,将文本所有特征项向量表示为文本《知网》义原空间向量,加入了对词汇语义因素的考量。本文在原有算法的基础上做出改进,一方面利用《知网》的义原层次结构,对义原的相似度计算方法做出改进,添加语义深度和语义密度因素,使计算结果更加完善,另一方面在原有算法的基础上加入段落相似度,增加段落相似度对整个文本相似度的影响。本文采用文本聚类方法对提出的本文算法有效性进行验证,通过对文本聚类的实验,证明了算法性能的提高。本文根据相似度算法理论研究,采用J2EE技术构架和相关开源技术实现文本相似度系统。本文系统设计根据功能划分为四个模块:《知网》数据处理模块、文本预处理模块、文本向量构建模块、综合计算模块,对于不同模块给出设计和实现方案,系统采用NLPIR、Lucene、SSH等开源软件完成对文本义原的表示和相似度的计算过程。最后本文实现的相似度系统应用到实际的工程中,取得了不错的效果。
其他文献
瓦斯爆炸是我国煤矿生产中最常见的灾害事故,目前治理瓦斯爆炸的主要手段是瓦斯预测。专家系统具有适应性强、可靠性强、成本低、响应快等优点,并具有持久性、复合性和解释说
目前,高校校园中信息(如教学、就业)的发布、获取主要通过校园网、电话等形式,其缺点是缺乏移动性、实时性,而传统的短信发送方式只是手机终端之间的文本复制,无法根据用户的
传统软件开发过程以概要设计和编码为驱动,存在着大量重复性开发。日益复杂的系统结构、需求的不断变更、平台之间兼容性所导致的复用性、互操作性差等问题,使得传统的软件开
目前软件技术在生产环境中的应用越来越广泛,在为我们提高生产速度的同时也为我们带来了前所未有的难题,过于臃肿的软件系统和日益变化的需求是目前软件面对的重大挑战。如何