【摘 要】
:
统计机器翻译包括两个模型的训练,其中短语翻译模型训练中的关键步骤是双语短语对的提取。怎样提取到准确和足够多的双语短语对成为研究的重点。Och短语抽取算法是以大规模的
论文部分内容阅读
统计机器翻译包括两个模型的训练,其中短语翻译模型训练中的关键步骤是双语短语对的提取。怎样提取到准确和足够多的双语短语对成为研究的重点。Och短语抽取算法是以大规模的双语平行语料为代价来平衡准确率和召回率,而藏汉平行语料规模有限,导致藏汉翻译模型训练数据时出现严重的数据稀疏问题。那么怎样解决这个问题成为研究的重点。本文通过对统计机器翻译发展及系统的介绍,使用moses、srilm及词对齐工具GIZA++,利用GIZA++得到藏汉双语平行语料库,利用moses完成整个翻译模型的训练,通过Och短语抽取算法和改进的短语抽取算法,得到最终的短语翻译概率表,并对最终结果进行分析。本文在Och短语抽取算法的基础上,对其进行改进。通过考虑词对齐矩阵中一个藏语对齐到多个汉语的情况,利用Och方法抽取短语对,并对不满足条件的短语对通过加入词典信息进行抽取,如果词典中含有这个短语对,则进行抽取,否则放弃。通过利用Och短语抽取算法和改进的短语抽取算法进行实验,分别对同一规模不同语料进行实验和不同规模的同一种语料进行实验。从实验结果可以看出,改进后的短语抽取算法比Och短语抽取算法能抽取出更多的藏汉双语短语对。这就在一定程度上提高了翻译模型的质量。
其他文献
主持是一门艺术。主持艺术与表演艺术有着相通之处。表演艺术与主持艺术这两种看似无关的艺术,却在不知不觉中巧妙地进行着整合,使主持艺术绽放出了新的光芒。运用恰当表演艺
近些年来我国新媒体发展速度不断加快,对我国传统媒体产生了较大的冲击,传统媒体新闻编辑在当前的形势下面临着较大的挑战以及机遇。在新媒体的大背景下,对传统媒体的地位以
财政部于2006年1月发布了新会计准则,其中存货计价方法的规定引起较多的关注和讨论。由于存货计价直接关系到企业收入与成本的计量,因此,选择不同的存货计价方法涉及到企业当
目的:探讨心理生理检测方法在精神疾病司法鉴定中对伪装精神疾病的鉴别意义。方法:对在精神疾病司法鉴定中收集的明确诊断的29例符合中国精神障碍分类和诊断标准(Chinese Cla
目前,在大学英语教学中经常用到的情景教学方法有环境创造法、直观道具法、趣味游戏法和情景对话法。情景教学作为一种教学方法,能活跃课堂气氛,充分调动同学们的学习积极性,
社会结构转型与社会体制转轨导致了中国社会矛盾多发和多样性。本文对近年来社会矛盾问题研究状况、基本观点和研究范式进行了简要回顾。提出在研究方式和研究方法论上需要突
<正>兴趣是入门的向导,是做好每一件事的前提。对学生来说,兴趣是推动他们积极上进的内动力,学生一旦对某一学科有了浓厚的兴趣,就会自然而然地产生强烈的求知欲望。在教学中
当前我们面临着市场经济、社会转型、全球化、外来思潮入侵等考验,国家凝聚力建设面临重大挑战与机遇,要切实有效地推进国家凝聚力建设,不断增强国家软实力,以捍卫国家安全,
针对碳纤维增强塑料的纤维取向测量中制样复杂、基体和纤维对比度不高的现状,提出了基于叉指电容的纤维取向介电测量方法。本文建立了各向异性材料的介电-取向理论模型,完成
根据电磁感应耦合原理,建立电容补偿式电路的相量模型,确定了影响传输效率的主要因素.基于实验得出最优电路参量,制作了简易的无线供电小车演示装置,具有较好的教学演示效果.