基于Globish的规范子集英汉翻译系统研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:kingerfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是一个信息时代,随着国际间各种交流的日益频繁,语言的多样性成了交流的一大障碍。历史上出现过世界语,最初作为一种通用的语言,试图实现各民族间的语言交流与沟通,然而由于种种原因却没有被推广,其中主要的原因是:它缺乏受众。法国人保罗·内里埃提出了一种以英语为基础的全球语Globish,它给我们实现各民族间的语言交流带来了希望。现在我们虽然可以借助专门的翻译人员进行翻译,但高额的费用与成本和不便常常让人望而却步。机器翻译(Machine Translation)可以帮助实现人与人之间的辅助语言交流,作为自然语言处理领域的一个分支,它涉及了很多其他领域的知识,由于人类对语言知识了解的有限性与计算机处理自然语言的局限性,机器翻译成了一个全世界研究学者的难题。基于这样的情况,本文提出了一种在受限专业领域(如:旅游)的基于Globish的规范子集英汉翻译系统的设想,旨在借助机器翻译这样一个平台,通过Globish这样一种规范的英语子集的语言,来解决语言交流障碍,满足相互沟通,相互了解的需求。本论文概括了机器翻译的一些基本理论和自然语言处理的相关知识,介绍了基于Globish的规范子集翻译系统语料库的建立,提出了该翻译系统的建构模型与相关算法。本文的主要任务是三个库的建立,采用定长字段与二级索引的结构建立一部含有1500个Globish单词的双语词典和一部旅游部分常用词汇双语词典,采用XML标记语言来存储一个旅游用双语实例句对库,并提出建立旅游用专有名词对应图片库的设想。根据受限旅游领域与Globish本身的语言特点,建构了翻译系统的系统模型,在系统的译文输出无法让人理解时,提出一种图文结合的输出的方法。在翻译的过程中,采用一种基于实例的改进的翻译算法,先进行关键词抽取的句子相似度计算,然后在判别是否匹配的情况下根据语言片段的分析来进一步实现翻译。基于Globish规范子集翻译系统是一个复杂度比自然语言全集翻译系统大大简化的可实现系统,它在未来可应用或嵌入诸如:电子字典、手机、MP3、MP4等实际应用系统中去,有着广泛的应用前景。
其他文献
下一代网络是一个可以提供包括话音、数据和多媒体等各种服务的综合开放的网络。通过把本体引入下一代网络,用本体来描述服务,构建电信服务领域的本体库,使得服务具备进行语义推
通信信号调制类型的自动识别广泛应用于信号确认、干扰识别、无线电侦听和信号监测等领域。自动调制识别的目的就是在未知调制信息内容的前提下,判断出通信信号的调制方式,并估
差异蛋白点提取是二维凝胶图像分析的关键技术,是目前蛋白质组学的重要研究方法之一,能够为疾病诊断、药物研制和环境污染分析提供依据,而蛋白点匹配是差异蛋白点提取的核心
随着我国铁路事业的快速发展,现有的机车运行安全监控设备已经无法满足机车司机和铁路管理部门的需求。为了帮助机车司机更加安全的驾驶,避免重大事故的发生,研究设计了一套机车
为了实现高数据速率、低延时、包优化以及保证小区边缘性能的无线接入技术,3GPP在工作计划中写入了长期演进(Long Term. Evolution)的研究框架,并提出了未来在20MHz带宽上达
本课题将嵌入式系统的概念引入到光纤熔接机的图像采集显示研究中,使图像采集显示系统能够在嵌入式系统的支持下产生新的研究方法,新的技术路线和新的产品。课题研究的目的就是
信息技术的发展和信息系统的广泛应用,既为企业的发展带来强大的动力,也使企业面临很多挑战。如何能够构建合理、高效的管理信息系统(Management Information System,MIS)以
七号信令是现代电信网的重要支撑技术之一。七号信令协议承载着电信业务网络运行的所有信息,可以说七号信令网是电信网的神经系统。电信网以七号信令方式接入各种业务平台。