英语长句机器汉译的研究

被引量 : 0次 | 上传用户:falaong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球化进程的飞速发展,机器翻译(Machine Translation)经历了很长一段时间的演变和发展。起初的机器翻译就是将一种语言转化为另一种语言的自然语言处理活动。随着近几个世纪的计算机技术的不断发展,机器翻译研究的内容已不再是计算机科学和语言学的简单综合,而其中会更多的涉及到语料库、语义学、自然语言处理、数学、科学计算、生物科学和人工智能等多个学科领域。虽然机器翻译发展的水平已经有了很大的提高,但是机器翻译的译文质量依然不是很高,也难以达到用户的需求,其中一个最主要的问题就是英语长句的处理。复杂的英语长句在英语中很常见,甚至贯穿于整个英文文章中,这些复杂长句的分析结果会严重影响机器翻译的质量和可读性。所以英语长句的处理及研究依然是机器翻译领域内的一个关键性问题。英语长句的分析方法和从字典中查询单个单词的方法是大不相同的。词汇的翻译只需要进行词元化和标记,进而在数据库中查找这个单词的原始形态。而简单单词或词汇的分析程序只是长句分析过程的一个初始部分。在文章中,长句的处理还需要对一些涉及上下文的、模棱两可的相关词进行辨别。在分析长句结构的程序中,有些问题如从句之间的关系、词的远距离相关等都需要考虑在内。所以,这些复杂的英语长句能否被正确的分析和翻译成用户所需要的目标语言已经成为影响机器翻译快速发展的关键因素。另一方面,现在整个翻译系统资源面临着严重不足的情况,并且这种不足会直接影响用户捕捉有用信息的能力。所以正确分析英语长句将会成为完成信息化策略的关键问题。本文主要是在现有的英汉机器翻译基础上寻找更有利于英语长句翻译的方法。通过对词性标注及规则的改进,使得规则能够匹配更多的句子模式,以提高现有的机器翻译译文的质量。本课题主要是在长句切分方面进行研究及改进,希望能够通过英语长句的准确切分来达到分段的目的,且能有效的缩短句子的长度,从而有利于形成正确的译文。通过对正则匹配法进行改进,实现长句切分,进而达到简化句子模式的目的。本文搭建的基于规则的机器翻译系统主要是构建信息库及规则库,通过对源语言的分析,进而对待翻译语句进行语义、句法及语法等进行分析判断,然后对其重新组合,最后输出译文。传统的基于规则的机器翻译模型中的规则主要是依靠语言学家进行总结调试,而本文中的规则是结合语料库的知识来进行总结及改进。并且基于规则的机器翻译方法可以比较准确且直观的表达出一种语言或一个语句的语法构成,那么计算机就可以按照人们制定的规则来更好地理解自然语言。
其他文献
在观察玉米种子结构的实验中,人教版教材提倡用解剖刀解剖玉米种子。然而,在实际操作中,学生在实验过程中容易出现操作失误,从而难以观察到玉米种子的完整结构。经过改进后,
<正>唱歌是人们表达情感的一种方式,尤其是幼儿,当他们高兴时就会情不自禁地唱起歌来,用以表达自己愉悦的心情。《幼儿园教育指导(纲要)》中也指出:"玩是幼儿的天性"、"要发
对于中学阶段的英语教学而言,课外活动的组织是课堂教学活动的有效补充与延伸,它对于深化学生课堂认知、培养学生的交际能力与创新精神有着十分重要的作用。我们需要在新课改精
通过观察和调查发现,现在的小学生体质逐渐下降,归结起来的原因有先天性的基因遗传和幼儿成长时期的行为科学以及社会环境等方面。先天性的是不可以控制的,但是后期成长的社
本文试图以爱默生作品中indifferency这一关键词的不同意涵为线索,考察其认识论的演化脉络,以此为基础来解读其思想中个体与社会的关系变化。爱默生早期对外物的"漠然"乃基于
<正>司法实践中,不同的法院、不同的审判人员对刑事案件中涉案财物的处理,是不尽相同的。究其原因,笔者认为,主要是基于对《刑法》第64条的理解不同。之所以出现不同的理解,
本文将分析亨德尔《弥撒亚》中的两个代表性男高音选段《安慰我的人民》和《每个山谷》的曲式结构和对演唱者怎样演唱提出的一些要求,通过合理的作品和歌唱状态训练方式进行结
过敏性哮喘(Allergic asthma)是一种由多种细胞(如嗜酸粒细胞、肥大细胞、T淋巴细胞、中性粒细胞、气道上皮细胞等)和细胞组分共同参与的慢性气道炎症性疾病,主要特征包括气道
<正>为抢救和传承临邑珍稀的历史文化遗产,临邑县档案馆历经三年多时间,对珍藏于国家图书馆的明清《临邑县志》进行了深度开发利用。目前已完成从征集到整理、编研全部工作,
自20世纪80年代文献战略被引入档案理论,文献战略方法就在北美档案界引起了相当大的争议,受到了不少质疑和关注。因此也引发了很多书面和口头的探讨,既有人支持它,也不少人对