英汉命名实体翻译方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:renyuh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体翻译是跨语言信息抽取、机器翻译等跨语言信息处理领域的一项重要任务。命名实体因类别不同采用的翻译方法不同,人名、地名主要采用音译,组织机构名主要采用音译与意译相结合的方法翻译。本文主要针对英汉人名的统计翻译模型方法和基于网络的英汉人名和组织机构名的翻译挖掘方法进行研究。论文的主要内容归纳如下:基于统计机器翻译与基于机器学习策略的英汉音译模型构建方法基于统计机器翻译的音译模型将音译问题映射为句子翻译问题,采用基于短语的和基于N-Gram的机器翻译方法构建音译模型。基于机器学习策略的音译模型将音译问题映射为标注序列问题,采用条件随机场和最大熵两种机器学习方法构建音译模型。对比以上几种音译模型,基于条件随机场的音译模型准确率最高。基于音译与网络的英汉人名翻译挖掘方法本文将统计模型的结果应用到网络挖掘中,通过构造启发式查询扩展获取质量更高的摘要资源,改善网络挖掘翻译的结果。对比基于统计模型的音译方法和基于网络的翻译挖掘方法,实验结果显示基于网络挖掘的翻译挖掘方法具有较高的性能,该方法修正了基于统计音译模型翻译结果中部分汉字不正确的情况。基于网络的英汉组织机构名翻译挖掘方法本文采用基于对齐锚点左右扩展的对齐方法对齐组织机构名双语对语料,然后从对齐结果中抽取组织机构名内部词汇和短语翻译词典。采用该词典作为查询扩展来源从网络中抽取翻译。对比基于网络的翻译挖掘方法和基于短语的统计机器翻译方法,基于网络的翻译挖掘方法性能较高。
其他文献
视频中运动目标检测和跟踪是图像理解、计算机视觉等领域的重要研究课题,现已广泛地应用于视频监控、机器人视觉导航、交通管制等领域,因此,开展运动目标检测和跟踪技术研究
图像边缘囊括了图像的所在位置、信息分布比重及细节纹理等特性,是形成一幅图像最关键的特征。因此,关于图像边缘的特征分析、研究及提取的新思想和新技术层出不穷。而到目前
在高速的_瓦联网主干信道上以零或非常低的丢包率获取IP报头并将其存储为IP TRACE需要非常强大的硬件平台的支持。这些IP TRACE是所有从事网络流量及相关领域研究的唯一的真
日盲紫外光通信作为一种新的通信手段,由于其保密性强、抗干扰能力强及可实现非视距传输等优点,可用于多种近距离抗干扰通信环境,近几年来受到军事强国的广泛关注。本课题基
无线传感器网络是一种由大量传感器节点通过无线通信技术自组织构成的网络。其中,如何降低平均能量消耗,延长传感器节点生命周期是当前研究的主要问题。本文首先介绍了无线传
随着Internet的普及和网络服务(Web Services)的广泛应用,如何提高应用系统的性能成为软件性能测试领域的研究热点。压力测试是评测系统性能的关键手段,对评测系统可靠性和健
近年来,市场对汽车电子功能的需求开始变得愈发强烈,使得汽车制造商不得不依赖于全行业统一的标准化体系,以及通用性、互换性更强的软件来降低软件的复杂度。汽车开放体系架构(A
传感器节点的能量限制直接决定了无线传感器网络的工作寿命。因此,传感器节点能否高效地使用能源是无线传感器网络设计中最重要的目标之一。在无线传感器网络的数据传输过程
地形可视化是当前地理信息系统重要的研究内容。要完成地形可视化,先要将地形信息数字化存储。数字地形信息存储方法主要有不规则三角网方式和规则网格方式两种。其中不规则三
随着国际互联网络的不断普及,数字产品的非法获取和拷贝问题变得越来越严重。随之,数字产品的版权和完整性保护也逐渐为人们所重视。较成熟的方案是用密码学来保障多媒体信息