【摘 要】
:
面向双语资源缺乏语言对的机器翻译研究是机器翻译领域研究的热点和难点问题。本课题以资源缺乏语言对的统计机器翻译为研究背景,采用主动学习策略,设计了有效的富含信息量句
论文部分内容阅读
面向双语资源缺乏语言对的机器翻译研究是机器翻译领域研究的热点和难点问题。本课题以资源缺乏语言对的统计机器翻译为研究背景,采用主动学习策略,设计了有效的富含信息量句子选择算法,从大规模单语语料中获取高质量的双语数据,发挥有限双语数据的最大效能,以显著改善面向双语资源缺乏语言对的统计机器翻译性能。 互联网是信息传播及存储的有效载体,从互联网获取大规模单语数据是木课题解决双语数据缺乏的首要问题。课题建立了web抽取模型,捕述了抓取程序的算法设计及实现步骤,并以抓取某知识网站为例进行了数据抓取实验,实验结果说明了以瓦联网为知识源获取大规模单语数据的可行性。 本课题首先介绍了主动学习的三种主要算法,然后描述了基于短语、N元文法及句子凼惑度的句子选择策略。最后根据课题研究中所发现的句长对句子选择算法性能影响的问题,分别提出了最短句长约束方法和句长惩罚方法,以改进富含信息量句子选择算法。以句子随机挑选算法作为基线方法,采用Moses作为统计机器翻译实验系统,在汉——英NIST机器翻译数据集上进行双语数据获取与机器翻译性能实验。实验结果表明,本课题所提出的基于句长约束方法(即设置最短句长闽值,过滤短于闽值的句子)及句长惩罚方法(即在句子选择算法公式中引入句长惩罚因子),使得前述的三种富含信息量句子选择算法优于随机选择算法,得到的双语平行数据使得统计机器翻译性能得到显著性提高,表明了课题所提出的基于主动学习方法的双语平行数据获取策略的可行性和有效性。最后,对实验结果进行分析,发现在小规模受限资源的统计机器翻译系统中,“利用”(exploitation)往往比“探索”(exploration)更重要,即在双语词汇规模一定时,提高双语短语的概率估计的准确性在提高翻译质量方面优于提高新词的覆盖率,即相对扩大双语词汇规模。
其他文献
基于风光储的分布式发电系统是当前研究的热点,但目前大多数的研究仅限于软件建模仿真阶段。因此为当前的研究提供更接近实际系统的分布式发电半实物仿真平台具有重要意义。为了对分布式发电系统的控制策略进行验证,本文将分布式发电系统和半物理仿真平台进行结合,建立了分布式发电系统半物理仿真平台。针对该平台的设计,本文从以下几个方面开展研究工作。(1)设计了分布式发电系统半物理仿真平台的电气结构,网络拓扑结构,对
随着工业的发展,电机作为一种机电能量转换和信号转换的电磁机械装置,已经被大量应用在国民经济和日常生活的各个领域,给我们的生活带来了极大的便利。同时,也带来了严重的噪声污染,电磁噪声是电机振动噪声的主要组成部分,而磁致伸缩效应是引起电磁振动的重要因素。所以,研究磁致伸缩引起的电磁振动对于电机减振降噪具有重要意义。为了研究磁致伸缩效应对电磁振动的影响,本文借助德国BROCKHAUS公司的测量设备,测量
作为水下无线通信的主要方式,水声通信成为海洋开发研究的热点之一。与自由空间无线信道相比,水声信道具有更严重的多径效应,更小的可用带宽和更加复杂的噪声,被认为是最复杂
随着我国社会经济的发展和人民生活质量的提高,对电力系统供电可靠性的要求也越来越高,特别是电力系统中的一类负荷和二类负荷。若电网某处发生故障,在全区域拉闸停电检修的
多供冷系统是制冷系统的一种普遍存在形式,它主要由压缩机、冷凝器和多个相互独立的冷藏室组成。超市制冷系统便是一个典型的多供冷系统,食品会依据存储温度的不同被放置在不同陈列柜中,这些陈列柜共用一套压缩机组和冷凝器组。在传统控制中,陈列柜中的温度控制器通常采用滞环控制,这些控制器是在互不知情的情况下设计和运行的,看似独立,实际上存在不可避免的耦合关系和相互作用。实践发现,超市制冷系统中,一个陈列柜的温度
飞轮储能是通过飞轮转子的旋转将电能、风能等其他形式的能源转化为动能,并加以储存的新型储能技术,具有效率高、适应性强、占地面积小、使用寿命长、储能密度大、经济环保等优
电化学工作站是现代电化学测试与研究中必备仪器之一,该仪器融合先进电化学测试技术与尖端的现代电子信息技术,能够完成稳定精确的电化学测试,在电池、燃料电池、电镀、生物医药等行业得到广泛应用。本文以项目“电化学工作站”为背景,研究实现了电化学工作站信号发生模块。作为电化学工作站重要组成部分,信号发生模块基于可编程逻辑器件FPGA设计实现波形产生逻辑和波形处理逻辑,并完成信号发生模块模拟通道的电路设计。本
随着现代纺纱技术的不断提高,纱条的在线检测与自调匀整技术在高速并条机上的应用已显得非常重要。纱条的均匀度是衡量纱线品质的重要指标,故对条干均匀度的检测与控制贯穿了整
随着控制系统日益复杂以及对产品质量要求不断提高,带材表面质量在当今生产中的意义日益姓著。作为表征带材表面质量的主要指标,尤其是对于热轧带材,表而三维缺陷的深度信息
时滞、非线性、不确定性、外界干扰等因素在现实生产和生活中无处不在,而且能够导致系统不稳定,或者系统的性能变差,有时甚至会造成严重的经济损失,所以尽量消除这些因素所造成的