论文部分内容阅读
神经机器翻译(Neural Machine Translation,NMT)是机器翻译(Machine Translation,MT)的新方法,已经表现出比传统机器翻译方法更好的翻译效果。在神经机器翻译过程中,基于端到端的翻译框架,读取一个源语句,将其生成对应的译文。神经机器翻译模型将各个神经网络整合在一起,进行联合训练,借用巨大的双语平行语料库,最大化翻译的条件概率,得到源语句的最优翻译。神经机器翻译系统的一个常见问题是他们不能正确翻译罕见词和未登录词。因为训练和解码复杂度随着词汇表数量的增加而剧增,神经机器翻译系统的词汇表数量受到限制,一般选取相对较小的词汇表,大小一般为3万词到8万词之间。对于源词汇表以外的所有单词,被替换成未登录词输入给编码器,丢弃了关于源词有价值的信息,同时也会影响翻译结果,降低翻译质量。面对科技文献(Scientific and Technical Document)的翻译时,未登录词问题更为严峻。 在神经机器翻译实验中,面对词汇表受限问题,许多学者尝试了字符级、词级、混合字符-词级等分词粒度,减轻词汇表受限的影响。本文先分析了汉语分词粒度与方法,然后实验验证不同分词粒度对神经机器翻译的影响,证明细粒度分词有助于翻译未登录词,提升翻译效果。 在分词粒度的启发下,结合科技词汇的构词规律,在保留词汇义素完整的同时,对分词后的中文语料进行再处理,将词缀、复合词、点互信息等知识运用到词汇表优化当中,在保留词汇义素完整的同时,对词汇表进行优化,成功减少了未登录词比例,最终达到了提升翻译效果的目的。本方法在NTCIR专利语料最高提升了2.69个BLEU(Bilingual Evaluation Understudy),在自动化计算机摘要最高提升了0.68个BLEU。 借鉴统计机器翻译中的词对齐信息,将对应多个英文词的中文低频长词做处理,优化词汇表,提升翻译效果。本方法在NTCIR专利语料最高提升了1个BLEU,在自动化计算机摘要最高提升了0.41个BLEU。