跨语言词汇语义相似度计算研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xoyo20001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言词汇语义相似度反映的是来自不同语言的词语之间的语义相似程度,它是跨语言信息获取系统的一个基本组成部分。随着近年来网络上多语言资源的增多,跨语言词汇语义相似度计算的研究逐渐得到了重视。本文致力于中英文词汇语义相似度的研究,证明了HowNet可以用于跨语言词汇语义相似度计算,并且平行语料库中的共现信息对跨语言词汇语义相似度计算的性能有较好的提升作用。本文的跨语言词汇语义相似度计算方法以HowNet作为跨语言知识库,基于HowNet的跨语言词汇语义相似度计算方法与单语词汇语义相似度计算方法类似,以HowNet中的概念定义和义原的树形层次结构作为计算基础,通过把中英文词语转化为义原形式,之后计算义原以及词语之间的语义相似度。评测结果表明HowNet可用于跨语言词汇语义相似度计算,但是HowNet中的一些词语的定义不够准确,对算法的性能产生了不良影响。为进一步提高跨语言词汇语义相似度计算的准确性,本文引入平行语料库作为补充数据源,首先抽取词语在语料库中的上下文词语,之后根据词语的PMI信息对上下文词语进行排序,并采用多种算法计算上下文词语之间的语义相似度,在把基于HowNet的方法与基于平行语料库的方法进行融合之后,跨语言词汇语义相似度计算的准确率得到了较大的提升。实验结果表明通过增加平行语料库的规模,跨语言词汇语义相似度计算的性能还会进一步提高。跨语言词汇语义相似度计算的评测采用与人工判断结果进行比较的方法,但是目前还没有可用的标准评测集。通过对英文词汇语义相似度研究中普遍采用的Miller-Charles评测集进行扩展,本文得到了包含28组中英文词语的评测集,为中英文词汇语义相似度计算提供了标准的评测集。
其他文献
地形可视化是当前地理信息系统重要的研究内容。要完成地形可视化,先要将地形信息数字化存储。数字地形信息存储方法主要有不规则三角网方式和规则网格方式两种。其中不规则三
随着国际互联网络的不断普及,数字产品的非法获取和拷贝问题变得越来越严重。随之,数字产品的版权和完整性保护也逐渐为人们所重视。较成熟的方案是用密码学来保障多媒体信息
命名实体翻译是跨语言信息抽取、机器翻译等跨语言信息处理领域的一项重要任务。命名实体因类别不同采用的翻译方法不同,人名、地名主要采用音译,组织机构名主要采用音译与意
随着越来越多的人参于网络内容的编辑,“分众分类”法也逐渐成为网络资源分类的重要方法。本文主要研究“分众分类”法的优缺点,对其缺点之中的“模糊性”进行了针对性研究,
随着Internet技术突飞猛进的发展,远程教育作为一种新型的教育模式在国内外得到了广泛的应用。虚拟实验室环境能让师生通过Internet进行近似于真实的实验教学活动,特别是针对
随着时代的发展,社会的不断进步,人类对通信的需要越来越大,对通信质量的要求也越来越高,通信网络已经在人们的工作、学习和生活中扮演着越来越重要的角色,这些都使得通信技术在不
在访问控制的三种策略中,基于角色的访问控制(RBAC)策略近些年来一直是研究的热点。相比较另外的两种访问控制策略:自主访问控制(DAC)与强制访问控制(MAC),RBAC具有更高的灵
近年来,网络的普及使得嵌入式系统被广泛的使用,越来越多地应用于各种领域(如手机,PDA,RFID等)。每天的生活中,一些嵌入式系统被人们用来处理一些敏感信息(如手机或PDA上的信
随着网络在人们工作和生活中的广泛应用,网络故障管理的重要性日趋显著。网络系统规模的扩大化以及结构的复杂化,使得网络管理和维护的难度进一步加大。网络中存在很多引发故
李群机器学习与深层结构学习是近年来倍受人们关注的新的机器学习方法,本文将这两种方法进行有机融合,给出了李群深层结构学习算法。主要包括以下几方面的内容:1)分析了李群