基于词嵌入的汉—泰跨语言句子相似度计算方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:lg7519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言句子相似度计算在文本挖掘,网页检索,机器翻译和问答系统中发挥着重要的作用,一直以来是自然语言处理领域中的一个重要的研究内容。随着中国一带一路倡议的不断推进,中国正在不断加强与东南亚国家的交流与合作。泰国一直以来都是中国重要的国际交流合作国家,语言是中国与泰国之间实现文化、经济等交流的重要纽带。然而,语言的差异也成为两国交流的障碍。泰语作为一种资源稀缺的语言,语料不易获取,同时泰语语言处理的相关研究较少。因此,汉-泰跨语言句子相似度研究面临巨大挑战,为了解决汉-泰跨语言句子相似度计算问题开展了本文的工作。本文针对汉-泰跨语言句子相似度计算方法进行相关研究。主要从以下三个方面展开:(1)在泰语单语言的句子相似度计算方面,提出基于词性和词向量的泰语句子相似度计算方法。该方法首先借用词性标注(POS)结果,通过考虑泰语句子中的词性来计算两个泰语句子的相似度,然后通过词向量训练工具将句子中的词语转换为向量,并计算两个句子中非重叠词的相似度。最后,结合词性和词向量来计算泰语句子的相似度。此方法不仅考虑词性,还融入了语义。(2)提出基于不对等语料的汉-泰跨语言词语的相似度计算方法。该方法首先对汉语和泰语的单语词向量进行归一化约束,对汉-泰双语词对向量正交最优线性变换得到模型参数的初始值,其次,通过对大型汉语语料进行聚类,借助双语词对找到与每一聚类簇相对应的汉语词,取聚类得到的每一簇词向量均值和汉语与泰语对应的词向量均值,作为新的一组汉-泰相对应的双语词对向量,并追加到原有的双语词对中,建立新的双语词向量对应关系,使得原有的双语词对得以泛化和扩展。然后,利用泛化扩展后的双语词对,对汉-泰跨语言词嵌入映射模型进行训练求得最优的映射矩阵W。最后,通过词嵌入映射模型实现汉语词向量到泰语词向量空间的映射,从而在泰语向量空间实现汉-泰跨语言词语的相似度计算。(3)提出基于句子嵌入的汉-泰跨语言句子相似度计算方法。该方法首先对平行句对进行预处理,得到汉-泰各自的句子分词后的集合,然后用Word2Vec处理两个词集合得到词向量集合,用融入词权重句子嵌入方法得到汉-泰的句子向量矩阵。最后对本文提出的跨语言词向量映射方法进行扩展,使其适用于跨语言句子嵌入模型,实现句子级的跨语言向量空间映射,从而计算跨语言句子的相似度。
其他文献
单纯采用某种机制的视觉目标跟踪算法,一般总会存在自身的缺点和局限性,这样一旦遇到算法本身无法良好处理的情况时,跟踪算法的鲁棒性难以得到保障,如何长时间稳定地进行复杂运动情况下的目标跟踪,成为一个研究的难点。本文选择TLD算法作为框架,通过多种方式提升了目标跟踪结果和学习样本的准确性:(1)首先,利用多跟踪融合确定学习目标,在同一帧的空间维度上,将中值流方法与KCF算法在跟踪模块中进行融合,以重叠相
大偏差理论是概率论极限理论中极富成果的一个分支,它是关于稀有事件的理论,用于估计稀有事件的概率,在实际生活中应用广泛。近些年来,随着排队论的发展,大偏差成为研究排队论的一个重要方法。本文主要研究大偏差理论在离散时间排队论中的应用,介绍了多源相关源头队列的大偏差性质和具有幂律尺度的多源相关源头队列的大偏差性质。第一章,绪论部分首先介绍了大偏差理论的发展概要,以及大偏差理论在各个领域包括排队论中的应用
金属钛及钛合金具有密度小、比强度高、耐热和抗腐蚀等一系列优良性能被广泛应用于航天航空、海洋、医疗等诸多领域。当前镁热还原法(Kroll法)是工业上生产金属钛的主要方法,但
CRISPR系统的发现给生物技术和分子生物学领域带来了重大变革,包括在多种活细胞和生物体内的基因组编辑和基因表达的调控。虽然这项技术为生物学、医学、农业带来了潜在的好
生态环境治理是中国生态文明建设的重要内容,但在财政分权体制下,中国面临环境财权和环境事权的错配,导致地方环境治理效果不佳,突出表现为中央“环保风暴”密集出台要求的地
铁品位是衡量铁精粉品质的重要指标之一,近年来,随着市场需求的激增以及选矿生产规模的不断扩大,其快速测试方法的研究逐渐受到铁矿产品加工企业和钢铁生产企业的关注。铁矿
本次研究利用1/25万区调、1/5万区调/矿调、相关科研报告、公开发表论文、学位论文及导师团队近二十年积淀的研究区年代学和岩石化学资料,在对研究区白垩纪相关岩浆岩进行较
本文在野外地质调查的基础上,结合前人学者的研究成果,分析不同成因类型粗粒土所具有的结构特征,根据粗颗粒组成变化和通过对比地质成因类型总结的结构类型,对粗粒土结构类型
雪落樱(Cerasus xueluoensis C.H.Nan&X.R.Wang),为我国特有樱属种质资源,现仅发现在湖南大围山、浙江大仰山、江西庐山和鄂西利川山区海拔11001500 m范围之间零星分布,数量稀少。雪落樱腋芽常3枚并生,因树形低矮、花期早、花量多、花色艳丽,具有极高的观赏价值以及潜在的科研价值,在各地普遍存在严重的盗挖现象,种质资源亟待保护。由于分布区内海拔较高,气候因子
随着全球日益激烈的竞争环境和国际分工的不断细化,以及信息技术的广泛应用,国内外企业为提高核心竞争力,越来越多的企业开始关注外部资源,纷纷将自身的非核心业务外包给专业