多语言文本语义相似度的计算及其应用研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:ning0001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本语义相似度(Semantic Textual Similarity,STS)用于衡量自然语言文本间语义的相似程度,是自然语言理解的基础,并且被广泛应用于其他自然语言处理任务中,如问答系统中的相似问题检索、翻译系统的质量评估等。目前,文本语义相似度的研究存在以下两个问题:(1)研究方法主要使用特征工程结合机器学习算法来构建模型,特征的设计和抽取依赖专家领域知识,模型的性能还不够高;(2)研究对象集中在英语文本,对于缺乏标注数据的低资源语言,一般首先将其翻译成资源丰富语言如英语,但是由于误差传播,翻译系统产生的错误会传播并影响文本语义相似度的评估。针对以上问题,本文对多语言文本语义相似度的计算进行研究并且将其应用在论证推理任务中,研究内容包括:1.多语言文本语义相似度的计算为了提升传统方法的性能,本文结合深度学习方法构建集成模型,并且结合翻译系统在多种语言上进行评估。这部分工作应用在2017年SemEval竞赛(国际语义评测竞赛)的多语言文本语义相似度任务中并取得了第一名的成绩,相关论文发表在2017年SemEval会议上。2.低资源语言文本语义相似度的计算为了解除低资源语言对翻译系统的依赖,同时充分利用资源丰富语言的标注数据,本文提出深度多任务学习模型,通过同时学习低资源语言和资源丰富语言的任务来辅助低资源语言文本语义相似度得到良好的特征表示。这部分工作发表在2018年ECIR会议上。3.语义匹配在论证推理中的应用前面两个工作对文本语义相似度的计算进行了研究,第三个研究工作将文本语义相似度的核心语义匹配应用在论证推理任务中。为了匹配给定的前提结论和候选论据,本文提出基于注意力机制的神经网络模型。这部分工作应用在2018年SemEval竞赛的论证推理任务中并取得第三名的成绩,相关论文发表在2018年SemEval会议上。为了验证以上模型的有效性,本文进行了大量的定量和定性实验。实验结果表明,本文提出的集成计算模型和深度多任务学习模型能够有效评估多语言和低资源语言的语义相似度。此外,语义匹配在论证推理中取得了良好的应用。
其他文献
特殊教育社区化发展是融合教育的现实选择。湖南省是特殊教育大省,在特殊教育发展方面取得了显著成绩,但是调查发现普通学校的特殊教育社区化发展水平明显滞后于特教学校。对
运用等距映射(Isomap)算法将信号的特征数据从原始高维空间映射到低维空间,然后融合深度置信网络(DBN)来诊断齿轮的故障状态。进行了齿轮箱运行至故障的实验研究,经过一系列
“天蓝”与“深红”──铯与铷叶蕊“CAESIUS”AND“RUBIDUS”──CAESIUMANDRUBIDUM自1944年俄罗斯化学家克劳斯(1796-1864)发现元素Ruthenium()以后,人们长期再没有发现过任何一种新元素!究其原因,在于...
在甘肃省夏河县甘加草原的高寒草甸连续6年观测高原鼢鼠Myospalax baileyi影响植被的全过程,经一次性抽样并作定量分析后发现,在高原鼢鼠的轻度、中度、重度和极度危害影响下
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:调查非医学专业大学生对医学基础知识的获取方式、了解程度、兴趣点及培训需求情况,探索开设医学基础知识公共选修课的必要性和可行性。方法:设计并发放调查问卷,对长沙
本文介绍了指纹识别方法在泥沙来源研究中的新进展。国际上新近的研究主要针对计算模型的改进和结果的不确定性分析,提出了多种泥沙来源相对贡献率的计算方法,提高了结果的准确