论文部分内容阅读
概念语义相似度的测量是自然语言处理的一个重要的研究内容,它在信息检索、机器翻译、词义排歧、自动问答等领域都有广泛的应用,它是一个基础的研究课题。目前对概念语义相似度的测量研究大致分为两大类:一类是依据某种世界知识来计算,主要是使用一种语义词典,通过词典中概念结点间的关系(上下位关系、同位关系、整体-部分关系等)来测量概念间的相似度;另一类是使用一种大规模的语料库,通过统计学的方法依据上下文信息的概率分布来度量概念间的语义相似度,这一类方法通过研究者的证明同样适用于一种近似于语料库的本体中。随着本体结构的完善和本体库词汇量的增加,越来越多的研究者开始使用本体进行语义相似度测量研究,但都存在一定的局限性,实用性受到效率以及不同应用领域的严重质疑。针对这一现状,本文从该方向着手进行探索研究。本文结合前期的研究工作以及参阅相关文献,选用国内的《词林》扩展版和国外的WordNet,就相关研究遗留的问题,分别提出一种模型用于计算概念语义相似度。本文的主要工作如下:(1)在中文词语相似度测量中,分析具有代表性的田久乐提出的算法存在的不足,然后针对存在的问题提出了较好地解决办法,使其与标准测试集MC30数据集的人工判定值之间的皮尔逊相关系数由0.53提高到0.85,具有较好的实用价值。(2)通过对众多优秀算法的研究以及对《词林》扩展版的了解,以Dekang Lin的相似度理论为基础,通过理论分析与推导,最后提出一种新的概念语义相似度测量方法。(3)在对中文词语相似度测量方法效果进行评判时,由于国内缺乏具体的评判标准,本文参考国外的评判标准,转化出了一种中文词语相似度评判方法,为国内的词语相似度方法的评估提供了一种评估标准。(4)在英文概念语义相似度测量中,基于WordNet的研究,考虑到本体中普遍存在的不规则密度,导致计算结果不佳的问题。首先从已有的算法中通过部分改进抽取出一种基于密度权重的算法,用于证明通过密度补偿路径可以改善不规则密度引起的问题,然后提出一种基于区域密度补偿的路径计算模型,将该模型运用于流行的基于路径距离的算法中,通过国际标准测试集测试,发现应用本文的模型的算法比之前的算法与标准测试集的人工判定值之间的皮尔逊相关系数有了很大的提高,具有较好的效果。(5)考虑到随着大数据时代的到来,本体中的概念数量可能随时发生变化,目前效果最好的基于信息内容的方法可能不能适应这一发展趋势,本文提出的基于区域密度补偿的路径计算模型对相关领域研究人员可能具有一定的参考价值。