论文部分内容阅读
21世纪是一个信息时代,随着国际间各种交流的日益频繁,语言的多样性成了交流的一大障碍。历史上出现过世界语,最初作为一种通用的语言,试图实现各民族间的语言交流与沟通,然而由于种种原因却没有被推广,其中主要的原因是:它缺乏受众。法国人保罗·内里埃提出了一种以英语为基础的全球语Globish,它给我们实现各民族间的语言交流带来了希望。现在我们虽然可以借助专门的翻译人员进行翻译,但高额的费用与成本和不便常常让人望而却步。机器翻译(Machine Translation)可以帮助实现人与人之间的辅助语言交流,作为自然语言处理领域的一个分支,它涉及了很多其他领域的知识,由于人类对语言知识了解的有限性与计算机处理自然语言的局限性,机器翻译成了一个全世界研究学者的难题。基于这样的情况,本文提出了一种在受限专业领域(如:旅游)的基于Globish的规范子集英汉翻译系统的设想,旨在借助机器翻译这样一个平台,通过Globish这样一种规范的英语子集的语言,来解决语言交流障碍,满足相互沟通,相互了解的需求。本论文概括了机器翻译的一些基本理论和自然语言处理的相关知识,介绍了基于Globish的规范子集翻译系统语料库的建立,提出了该翻译系统的建构模型与相关算法。本文的主要任务是三个库的建立,采用定长字段与二级索引的结构建立一部含有1500个Globish单词的双语词典和一部旅游部分常用词汇双语词典,采用XML标记语言来存储一个旅游用双语实例句对库,并提出建立旅游用专有名词对应图片库的设想。根据受限旅游领域与Globish本身的语言特点,建构了翻译系统的系统模型,在系统的译文输出无法让人理解时,提出一种图文结合的输出的方法。在翻译的过程中,采用一种基于实例的改进的翻译算法,先进行关键词抽取的句子相似度计算,然后在判别是否匹配的情况下根据语言片段的分析来进一步实现翻译。基于Globish规范子集翻译系统是一个复杂度比自然语言全集翻译系统大大简化的可实现系统,它在未来可应用或嵌入诸如:电子字典、手机、MP3、MP4等实际应用系统中去,有着广泛的应用前景。