汉英平行语料库中名词短语对齐算法的研究

来源 :中国科学院软件研究所 | 被引量 : 14次 | 上传用户:xiuluoyanyu1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消岐和跨语言信息检索也具有重要价值。 在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。 本文以平行语料库及其对齐技术在基于实例的机器翻译和机器辅助翻译中的应用为背景,讨论了《大规模汉英平行语料库》的建设,包括语料的采集、编码、句子对齐和语料库索引等问题。然后介绍了使用规则和统计相结合的方法进行汉英名词短语对齐的研究。对齐算法利用英语的句法分析器进行英语名词短语识别,采用句法模式规则过滤汉语名词短语候选集,最后通过基于共现频率的相似度计算来选取最佳配对。算法有效地克服了单纯利用规则和双语词典的方法的一些不足,提高了准确率。
其他文献
PDM是Product Data Management(产品数据管理)的缩写,它是依托IT技术实现企业最优化管理的有效方法,是科学的管理框架与企业现实问题相结合的产物,是计算机技术与企业文化相结合的一种产品。PDM在企业的信息集成过程中起到一个集成“框架(Framework)”的作用。PDM涉及的领域很广,它可以管理各种与产品相关的信息,包括电子文档、数据文件以及数据库记录,可触及现代企业的每个角
数字权限管理DRM(Digital Rights Management)就是利用先进的信息技术,在提供数字化和网络化信息服务的同时,有效地阻止对这些信息的非法使用和拷贝,以达到保护数字知识产品知识产
本文所介绍的内容是如何把嵌入式Linux应用于GPS行业终端设备中。所谓GPS行业终端,在功能上可以简单的描述为GPS+PDA+手机。也就是说这样的系统在GPS功能上含有一套完整的GPS
乐观公平交换协议是一类典型的安全协议,用于在两个或多个主体之间安全、高效地进行电子交易。与其它安全协议相比,乐观公平交换协议在结构上较为复杂,从而更容易存在安全缺