论文部分内容阅读
老-汉双语语料库是开展汉-老机器翻译及跨语言检索的重要数据资源,老挝语是东南亚语言中资源较为稀缺的语言,老-汉双语平行资源较为稀缺,直接从互联网上获取老-汉双语平行资源存在较大困难。老挝语、泰语是较为相似的语言,汉-泰双语资源相对较丰富,为此,论文利用泰语、老挝语语言相似的特点,提出一种以泰语为枢轴语言的老-汉双语平行语料库构建方法,实验证明提出的方法对老-汉双语语料库的构建具有一定的理论意义和实际应用价值。论文的研究工作主要体现在以下几个方面:1.利用网络爬虫技术从汉-泰双语新闻网站、维基百科、汉-泰双语学习网站自动获取了一定规模的汉-泰双语平行语料库,并通过人工的方式对数据进行校对,构建了汉-泰双语句子对齐语料库及老-泰双语句子对齐语料库,分析了老挝语、泰语在构词、读音、句法等方面的语言相似性和差异性。2.提出了一种以泰语为枢轴语言的老-汉双语语料库构建方法,该方法首先从已构建的汉-泰双语句子对齐语料库中选取泰语句子,利用老-泰双语词典将泰语句子翻译成老挝语对应的词序列作为候选的老挝语句子,然后通过训练老挝语神经语言模型对候选的老挝语句子进行校正,最后利用卷积网络和双向LSTM构建老-泰双语平行句对分类模型,提取老-泰双语平行句对,以泰语为枢轴语言构建老-汉双语平行语料库。实验证明提出的方法的模型精确率达到了72.62%,召回率达到了70.02%。3.基于Tensorflow平台构建了老-泰双语平行句对抽取模型,基于Java EE技术研发了基于以泰语为枢轴的汉-老双语语料库构建原型系统。