【摘 要】
:
机器翻译自动评价是机器翻译研究中的一个重要环节,在机器翻译系统的开发周期中起着重要的作用。目前一些简单的基于字符串相似度的方法虽然能高速的对译文进行评价,但是其评
论文部分内容阅读
机器翻译自动评价是机器翻译研究中的一个重要环节,在机器翻译系统的开发周期中起着重要的作用。目前一些简单的基于字符串相似度的方法虽然能高速的对译文进行评价,但是其评价结果存在着严重的偏向性。国际研究中的主流改进方法是融入更多的语言学信息。这样虽然能让评价模型的性能得到提高,但是却因其用到了语言学信息,而丧失了语言的独立性。事实上,语言学信息的引入可以被认为是一种单元匹配时计算单位(粒度)的改变。为了将提高自动评价方法的精度、速度,扩大应用的范围,我们从改变机器翻译自动评价模型计算粒度的角度出发,提出了一系列机器翻译自动评价方法:首先,我们提出了基于字母的机器翻译自动评价的方法。这一评价方法既具有语言独立性,并且又能解决部分的词语曲折变化等问题。同时为了进一步改进基于字母的机器翻译自动评价方法的性能,我们提出了i_Letter_BLEU和i_Letter_Recall两种方法,这两种方法能够根据标准译文自动地调整参数,使得基于字母的机器翻译自动评价方法的性能更加稳定。其次,我们根据现有的基于机器学习的特征融合方法,提出了基于表层信息的多粒度特征融合方法。该方法在SVM排序和回归模型框架下进行特征融合。经过特征选择仅使用了少量的特征就在往年评测数据上取得了与评测时最高成绩可比较的结果。并且值得注意的是,这种方法没有用到任何的深层的语言学信息,是语言独立的。最后,我们将语言学特征用字符串表示,在一系列的基于语言学的计算粒度上分析语言学特征的对于机器翻译自动评价的贡献,提出了基于语言学多粒度特征融合的自动评价模型。该方法仍然在SVM排序和回归模型框架下进行特征的融合。该方法经过特征选择,从大量不同粒度的特征中进行选择,提出了一种较低的计算复杂度的方法,但是相对于其他传统方法具有更高的性能。
其他文献
压缩感知(Compressed Sensing或CS)不同于传统的数据获取理论,它可以使用远比传统方法少的测量或者样本来恢复确定的信号或图像。为了实现这个目标,CS依赖于两个规则:稀疏性和
信任模型可为用户访问互联网提供安全体系,访问控制和认证技术可以进一步提高用户访问系统的安全性。 本文以研究信任模型为主线,对分布式网络环境下信任模型及相关领域做了
当今,多样化的传播途径和复杂的应用环境给网络蠕虫的快速传播提供了条件。从发现漏洞到对应蠕虫爆发的时间越来越短,从蠕虫爆发到蠕虫被控制的时间越来越长,并且几乎每次蠕
P2P业务流量在对互联网应用起巨大推动作用的同时,也消耗了大量的网络资源,妨碍了正常网络业务的开展。为了保证网络能正常有序的运行,有必要对P2P流量进行识别,从而进行控制
信息时代的到来,数据的指数级增长,自动从海量数据库中方便、准确地获取有用知识和发现数据间的有用模式已成为人们迫切的需要,也促使数据挖掘方法与技术的研究应用不断深入,推陈
近些年来互联网发生了巨大变化,各种新型网络应用不断涌现。识别网络中具体运行着那些网络应用是网络管理,网络维护,网络安全的前提条件。其中深度报文检测(DPI, Deep Packet
伴随着网络的普及,网络模拟由于其成本低廉、模拟精准度高等特点,逐渐成为研究网络行为的有效手段之一。在使用众多网络模拟软件进行网络模拟时,必不可少的一个环节是将所模
目前,高性能容错计算机市场被国外厂商垄断。由于高性能容错计算机普遍应用于金融、能源、交通、电信等关系国家安全和民生经济的重要行业,所以大量重要信息存在泄露隐患。高
P2P(Peer-to-Peer)作为一种新型互联网应用技术,相对于传统的C/S模式具有非中心化、可扩展性、健壮性、负载均衡、容错性好等优点,因此得到了广泛的应用。BitTorrent(BT)协议
随着嵌入式系统的发展,其硬件性能不断提高,对拥有可视化界面的需求不断增长。除了数码相机、PDA、手机等传统的嵌入式可视化产品外,越来越多的领域,如工业设备、交通电子等