面向科技文献的神经机器翻译词汇表优化研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:zhang2jie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译(Neural Machine Translation,NMT)是机器翻译(Machine Translation,MT)的新方法,已经表现出比传统机器翻译方法更好的翻译效果。在神经机器翻译过程中,基于端到端的翻译框架,读取一个源语句,将其生成对应的译文。神经机器翻译模型将各个神经网络整合在一起,进行联合训练,借用巨大的双语平行语料库,最大化翻译的条件概率,得到源语句的最优翻译。神经机器翻译系统的一个常见问题是他们不能正确翻译罕见词和未登录词。因为训练和解码复杂度随着词汇表数量的增加而剧增,神经机器翻译系统的词汇表数量受到限制,一般选取相对较小的词汇表,大小一般为3万词到8万词之间。对于源词汇表以外的所有单词,被替换成未登录词输入给编码器,丢弃了关于源词有价值的信息,同时也会影响翻译结果,降低翻译质量。面对科技文献(Scientific and Technical Document)的翻译时,未登录词问题更为严峻。  在神经机器翻译实验中,面对词汇表受限问题,许多学者尝试了字符级、词级、混合字符-词级等分词粒度,减轻词汇表受限的影响。本文先分析了汉语分词粒度与方法,然后实验验证不同分词粒度对神经机器翻译的影响,证明细粒度分词有助于翻译未登录词,提升翻译效果。  在分词粒度的启发下,结合科技词汇的构词规律,在保留词汇义素完整的同时,对分词后的中文语料进行再处理,将词缀、复合词、点互信息等知识运用到词汇表优化当中,在保留词汇义素完整的同时,对词汇表进行优化,成功减少了未登录词比例,最终达到了提升翻译效果的目的。本方法在NTCIR专利语料最高提升了2.69个BLEU(Bilingual Evaluation Understudy),在自动化计算机摘要最高提升了0.68个BLEU。  借鉴统计机器翻译中的词对齐信息,将对应多个英文词的中文低频长词做处理,优化词汇表,提升翻译效果。本方法在NTCIR专利语料最高提升了1个BLEU,在自动化计算机摘要最高提升了0.41个BLEU。
其他文献
Web2.0自2004年问世以来,由于其以人为本的原则、用户参与的特征,得到了迅猛的发展,越来越多的网站走上了Web2.0的道路,Web2.0也日渐成熟,甚至出现了创新2.0、Web3.0等一些新
文化共享工程是我国公共文化服务体系的重要组成部分,是利用现代通信传播技术将优秀的文化信息资源传送到城乡基层群众身边的一项国家级文化重点工程。它可以改善和丰富广大
[目的 /意义]信息检索处理的是相关性的不确定性问题,但在技术层面则通常将不确定性转化为确定性的处理方法,对信息内容中存在的不确定性语义关注不多,而这一问题在某些信息
[目的/意义]通过调查我国图情学术期刊开展移动信息服务的现状,为解决我国图情期刊移动信息服务过程中遇到的问题提出建议和对策.[方法/过程]选取CSSCI(2014-2015)图情类期刊
[目的/意义]随着我国知识产权战略的深入实施,专利信息服务已成为大学图书馆服务转型的重要方向.美国是世界上最早建立知识产权法律和制度的国家之一,通过在现有各类图书馆中
蛋白质组学迅猛发展,越来越多与肿瘤发生发展相关的蛋白质被发现,并被应用于临床诊断。Argonaute2蛋白通过参与构成RNA诱导的沉默复合体,其自身催化及自身过表达功能,在人类