论文部分内容阅读
随着科技日新月异的发展,机器翻译技术得到了越来越多人的关注,其理论研究以及实际应用都已成为机器学习领域的一大热点。与人工翻译相比,机器翻译在翻译效率上有较明显的提高,且代价较低,所以自动化翻译技术(机器翻译技术)的研究已经成为一个非常重要的研究方向。随着机器翻译技术的飞速发展,机器翻译质量评价这一研究课题应运而生,对于机器翻译系统产生的翻译结果,我们需要衡量其翻译质量如何。完成机器翻译本身并不是最终目的,我们希望知道机器译文能够在多大程度上帮助到人们,同时,对机器译文质量有大致的评估,也有助于学习得到一个更好的机器翻译系统,这两者相辅相成。对于机器译文的评测,传统的方式是进行人工评价,但是这种方式由于其耗时、代价昂贵且结果不可重现,现已被自动评测方法部分取代。当前主流的自动评测方法,采用的都是相同的策略:将机器译文与一个或是多个人工译文(参考译文)进行比较,并且认为一个与参考译文非常相似的机器译文肯定比那些与参考译文有较大差异的译文更准确。但是,由于语义和表达方式的多样性,源语言中的一个句子可能有很多不同的正确翻译结果(即翻译多样性),而参考译文是有限的,这就会导致在一些情况下,自动评测方法不能准确的对译文质量有一个评估,同时这一问题也限制了机器翻译系统的翻译能力。在本文中,我们针对目前的自动评测方法在翻译多样性方面的的缺陷做出了改进。由于人工翻译的昂贵代价,我们能够获取到的参考译文是有限的,因此,本文提出了一种从有限的资源中获取到更多信息的自动方法。首先,我们探索了不同的评价方法以及选择不同的参考译文对机器翻译系统的影响;其次,对已有的参考译文进行拓展,对于部分存在多个参考译文的数据集,通过构建一个参考译文图以获取更多的信息,对于大部分只存在一个参考译文的数据集,利用外部单语资源英文复述表,对当前的参考译文进行拓展,得到一个含有更加丰富信息的参考译文图;最后,通过从参考译文图中寻找最优路径以提高效率,并将该自动方法应用到已有的自动评测方法中,帮助提升机器翻译系统本身的翻译能力。实验结果表明,本文提出的从有限的资源中获取到更多信息的自动方法能够更快地获取到更加丰富且多样的参考译文信息。对于多个参考译文的拓展,能够对机器译文作出更加准确的评价;对于单个参考译文的拓展,不仅能够更准确地评价系统译文,同时还减小了使用不同译文带来的系统性能的差异;将该方法应用于翻译系统的训练过程,有效的提高了翻译系统能力。