以泰语为枢轴的老—汉双语语料库构建方法研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:dulizhi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
老-汉双语语料库是开展汉-老机器翻译及跨语言检索的重要数据资源,老挝语是东南亚语言中资源较为稀缺的语言,老-汉双语平行资源较为稀缺,直接从互联网上获取老-汉双语平行资源存在较大困难。老挝语、泰语是较为相似的语言,汉-泰双语资源相对较丰富,为此,论文利用泰语、老挝语语言相似的特点,提出一种以泰语为枢轴语言的老-汉双语平行语料库构建方法,实验证明提出的方法对老-汉双语语料库的构建具有一定的理论意义和实际应用价值。论文的研究工作主要体现在以下几个方面:1.利用网络爬虫技术从汉-泰双语新闻网站、维基百科、汉-泰双语学习网站自动获取了一定规模的汉-泰双语平行语料库,并通过人工的方式对数据进行校对,构建了汉-泰双语句子对齐语料库及老-泰双语句子对齐语料库,分析了老挝语、泰语在构词、读音、句法等方面的语言相似性和差异性。2.提出了一种以泰语为枢轴语言的老-汉双语语料库构建方法,该方法首先从已构建的汉-泰双语句子对齐语料库中选取泰语句子,利用老-泰双语词典将泰语句子翻译成老挝语对应的词序列作为候选的老挝语句子,然后通过训练老挝语神经语言模型对候选的老挝语句子进行校正,最后利用卷积网络和双向LSTM构建老-泰双语平行句对分类模型,提取老-泰双语平行句对,以泰语为枢轴语言构建老-汉双语平行语料库。实验证明提出的方法的模型精确率达到了72.62%,召回率达到了70.02%。3.基于Tensorflow平台构建了老-泰双语平行句对抽取模型,基于Java EE技术研发了基于以泰语为枢轴的汉-老双语语料库构建原型系统。
其他文献
<正>姜姓为炎帝之后。由于炎帝在历史上的伟大贡献和深远影响,其后裔所建之姜姓国家数量庞大,支系繁多,分布极广,几乎遍及华夏。有的姜姓国家存在时间很长,从唐虞之际直至春
会议
较深入研究蜜蜂属分类的人当属Ruttner博士,他对蜜蜂属形态方面的多个指标进行了分析,此后很多人应用他提供的分类体系对特定区域或品种的蜜蜂形态特征进行研究。由于自然环境
改革开放以来,上海会计管理部门在认真贯彻落实财政部各项会计管理政策的同时,结合实际,积极探索,大胆实践,初步探索出一条符合上海经济和社会发展特点的会计管理新路子。
针对周边场地狭小、软土地基的大型深基坑,本文以马来西亚甲洞增江污水处理厂工程临时处理池为例,简要介绍采用单排钻孔灌注连续桩结合工字钢钢梁内支撑型式作为基坑挡土结构
企业会计准则在我国上市公司有效实施已有三年历史,会计准则实施的经济效果已经凸显。本文基于上市公司2009年年度财务报告的分析,从促进上市公司可持续发展、全面提升会计信