论文部分内容阅读
随着信息技术、人工智能的不断发展,人们越来越依赖于从网络途径获取所需信息,网络中的信息也越来越繁杂。相似度计算作为自然语言处理领域的关键技术,能够对信息进行过滤和筛选,从而得到用户想要的信息。要想提高信息检索质量,就要提高相似度计算的精确度。相似度计算包含概念语义相似度计算和句子相似度计算等。两种相似度算法精确度的提高对其应用领域的发展有着至关重要的影响。本文主要对概念语义相似度算法和句子相似度算法进行了详细研究,提出了基于WordNet的概念语义相似度MICS模型,并将其应用到句子相似度计算之中。通过测试验证了MICS模型具有较好的性能,提高了相似度计算的精确度。具体工作如下:1.阐述了相似度算法的研究背景及意义,探讨了本研究的基础性和必要性,并概括总结了概念语义相似度算法和句子相似度算法的研究进展。2.介绍了WordNet语义词典的相关内容。重点介绍了WordNet的发展状况、内容结构以及其中包含的语义关系。简要说明了本文采用的WordNet版本和结构。3.重点剖析了常用的概念语义相似度算法,根据各个算法的优势和不足提出了MICS模型。该模型以IC(信息内容)模型为基础,利用相邻概念之间的条件概率对边进行加权,用互信息表征概念之间的语义相似度。算法同时将概念在层次树中的密度、深度以及路径因素考虑在内,并结合了传统的基于信息内容IC的算法和基于路径因素的算法。然后对MICS模型进行了测试与分析,验证了该模型具有更好的性能。4.对句子相似度计算步骤以及常见的句子相似度算法进行了详细地分析,在此基础上,将MICS模型应用到句子相似度的计算中。经过测试对比验证了MICS模型具有良好性能。5.认真分析了本文不足之处以及需要解决的问题,对今后的研究工作进行了展望。