基于短语对齐的汉—英翻译知识自动获取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bingying888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅猛发展,“信息爆炸”已成为信息处理领域中的瓶颈问题。信息的日益国际化及语言之间的障碍形成了人们对机器翻译系统的强烈需求,而普遍存在的知识获取难题始终制约着翻译系统的发展。语言学知识和统计模型在自然语言信息处理领域所取得的成功,为人们利用语言学资源和统计方法实现翻译知识自动获取在理论和实践方面指明了方向,对机器翻译的研究将具有重要的理论意义和实用价值。本文提出了翻译知识自动获取及优化方案。在知识获取方面,研究了平行双语语料库的对齐加工技术;探索了翻译模板自动获取方法。在知识优化方面,研究了短语翻译对的评价与过滤技术;探索了基于评价的模板库自动优化方法。将获取的翻译知识用于一个基于模板的机器翻译系统中,并对机器译文进行自动评测。实验结果表明:本文提出的知识获取方法可以提高系统的译文输出质量,降低人工获取翻译知识的代价。具体地讲,本文将从以下几个方面开展研究:  1.研究了平行双语语料库的短语对齐加工技术。分析了常用的短语对齐方法,及制约对齐结果的各项因素。为双语句对建立译文等价树,利用贪心算法来消除同层结点译文边界之间的交叉冲突。该等价树仅考虑源语言句法信息,避开了源语言和目标语两种语法体系之间的不一致性对短语对齐的影响,以便从中获取高质量的短语翻译对。  2.研究了短语翻译对自动优化方法。探讨了评价双语互译的常用方法,提出了短语翻译对的评价特征。该特征同时包含了源语言与目标语两部分信息,以期望能够从语言现象本身去反映短语对的互译程度,获取较好的优化结果。使用评价特征对自动获取的短语翻译对集合进行过滤,以消除其中的噪声。同时在评价特征的基础之上,使用多种机器学习算法来提高短语对的评价与过滤性能。  3.研究了翻译模板自动提取技术。对比了几种常用的模板抽取方法,提出了使用错误驱动的学习方法来获取模板。利用源语言的句法特征、词性特征、词法特征、核心结点信息及机器翻译词典,对短语对进行简单地映射以提取学习实例。采用错误驱动的学习方法从中抽取翻译模板,力图解决模板自动获取问题。同时,对翻译模板库进行合理地组织以提高检索匹配的效率。  4.研究了模板自动评价与优化方法。分析了常用的模板过滤方法。以模板对训练语料库译文评测分数的总体贡献,和正确翻译语言现象的能力为基础,提出了一种新的模板评价机制。同时给出了该评价机制在不同优化策略下的具体数学表达形式。使用频度信息过滤模板库以获取适应新任务的翻译知识。
其他文献
为提高分布式系统的可用性,研究者大都在系统中引入冗余,组通信技术是应用最广的一种空间冗余技术,是分布式系统的一个重要研究领域。 组通信中的主动复制技术和被动复制
联机手写字符的采集是指运用字符手写输入设备对规定字符进行采集,字符采集实际上是采集字符书写轨迹的坐标,然后将这些字符书写轨迹的坐标的信息转化为字符内码的过程。随着
Peer-to-Peer(P2P)作为以文件共享为初始目的的应用,允许任意终端用户对等体(Peer)间通过Internet完成文件交换。在P2P应用仅有的短短几年发展时间里,它已成为了占用Internet流
随着信息技术的发展及其在金融、交通、军事、生态环境检测、Web等领域的应用日益深入,海量数据大量涌现,向数据库研究者提出了新的挑战。存储介质的价格/容量比的迅速下降以及
客户群分析是分析型客户关系管理中最重要、最核心的问题之一。本文从客户群分析过程的全生命周期出发,运用数据挖掘方法,针对客户群分析各个阶段对数据挖掘算法的特殊需求,提出
随着信息处理在通信、工业生产、商务处理等领域的广泛应用,数据已不仅仅拘泥于文件、数据库等传统的静态形式,一种连续、无界、不定速度的数据流已经出现在越来越多的应用领域
随着嵌入式技术的发展,智能手持设备日益普及,其安全问题也逐渐引起人们的关注。针对各种安全威胁,目前已经开发出了多种手段进行防护,如用户认证,病毒扫描,数据加密等。但我们注意
随着Internet的发展和后PC时代的到来,嵌入式系统的应用愈来愈广泛。随着因特网的发展,Web技术的广泛应用,越来越多的网络通信设备甚至测试仪器都已经实现内置的嵌入式Web服
本论文对基于软交换的媒体服务器进行了研究,在研究成果的基础上目前已经完成了一个基于软交换的媒体服务器原型系统的开发。论文对研究过程中取得的主要创新成果进行了详细阐
围绕网络的应用,网络安全一直是亟需解决和完善的问题。单纯依靠防火墙策略已经无法满足对网络安全的需要。入侵检测系统作为一种新型的网络安全技术,能有效地弥补防火墙的不足