汉语词与句子切分技术及机器翻译评估方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:renren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该论文以统计模型为基础,在参考了大量前人工作的基础上,对汉语词法分析、口语句子切分和机器翻译评估进行了较为深入的探讨和研究.汉语词法分析是大部分中文处理的第一步,其重要性不言而喻;句子切分是语音翻译中连接语音识别和文本翻译的桥梁,无论语音识别和文本翻译单独的效果有多么好,这座桥没搭好,综合的性能依然无法提高;机器翻译的自动评估是构建机器翻译系统中很重要的辅助工作,其可以加速翻译系统的开发速度,缩短其开发周期.简言之,这三方面同属于自然语言处理的基础的研究领域,其效果直接影响到高层应用的水平.在词法分析上,我们利用隐马尔可夫模型(HMM)提出了一种融和了分词、词性标注和命名实体识别的一体化词法分析方法.最初我们用基于类别的HMM,其优点是对词的覆盖面广,系统开销小;缺点是不能精确地预测词的出现概率.为了提升模型的准确率,我们引入基于词汇的HMM,并将两者有机地结合,并用一个"词到字"的概率平滑方法对基于词的HMM进行平滑.实验结果显示,我们的混合模型由于缩考虑到了字、词、词性以及命名实体的知识,在切分的准确率和召回率上都明显优于单纯基于类别或者基于词的HMM.此外在分词系统的实现上,我们借助对通用分词系统APCWS的整体框架和各功能模块的介绍,讨论了如何有效地存储和加载数据等一些技术细节问题.在口语句子切分上,我们提出了基于双向N元模型和最大熵模型的句子切分算法,这种算法由于通过最大熵有机地将正、逆向N元切分结合起来,综合考虑到了切分点左、右的上下文,从而得到了很好的切分效果.我们在中、英文语料上训练我们的模型并作测试,结果显示其在性能上明显优于基本的正向N元切分.在此基础上,我们分析并对比了各模型的切分结果,从而验证了我们当初对于模型的预计:其一方面保存了正向N元算法的正确切分,一方面用逆向N元算法有效地避免了正向算法的错误切分.在机器翻译的自动评估上,我们首先介绍了两种常用的基于参考译文的评估算法BLEU和NIST,然后给出了一种基于N元模型的句子流畅度评估方法E3.这种方法不需要借助任何参考译文,它通过区别地对待句子中不同的词的转移概率,达到了很好的评估效果.综上所述,该文针对汉语词法分析、口语句子切分和机器翻译评估提出了以统计模型为基础的创新方法,它们不仅仅在科学方法上有重要的参考价值,对于实际应用中也有重要意义.
其他文献
随着中国社会保障事业的深入发展,养老保险收支两条线的贯彻执行,离退休职工养老金得到了充分的保障.但是养老金的社会化发放过程中,存在一个漏洞:部分退休职工去世后,其家属
柔性制造系统(FMS)是当今在制造领域中迅速发展的高新技术之一.采用此高新技术,企业可以加速产品的生产过程,降低生产成本,提高产品质量,增加生产柔性,提高对市场的应变能力,
论文以船舶到港为边界,构建专业化散货码头装卸自动化系统半实物性仿真模型的功能和结构,以集成于工控网络中的工控机虚拟生成各种装卸设备模型;在监控工作站组态软件平台上仿真
高精度副反射面调整机构,主要应用在大口径高频段的反射面天线上,为了满足大口径天线副反射面调整技术的发展趋势,尤其对于在运转过程中,需要副反射面同时按照一定要求的轨迹进行运动的高精度天线系统中。天线副反射面位姿的精确调整是确保大口径天线高指向精度的关键技术之一,伴随着对并联机构的深入研究,并联机构的应用日益广泛,因此本文的研究对象就是应用于天线副反射面上的六自由度并联机构,通过提高六自由度并联机构的
本文在分析了几种现有的对于高分辨率遥感影像的压缩算法后,提出了一种新的基于整数小波变换的压缩算法,并相应的介绍了设计实现方案。以前的图像压缩算法主要是基于浮点小波
该课题是针对于传统报警系统单点监控报警的机械性而设计的智能化、数字化的视频图像识别监控报警系统.早期的报警系统是机械的报警,它仅对单点进行监控,只要有物体进入监控
随着社会进步,出现了各种新的问题,如人口老龄化、各种环境污染的增多及残疾人数量的增大,人们急需一种机器人来解决这些问题。而双足机器人与人类的形状接近,能够很容易适应人类
Web Services是在现有的各种异构平台的基础上构筑的一个通用的与平台无关、语言无关的技术层,各种不同平台之上的应用可以依靠这个技术层来实现彼此的连接和集成。Web Servic
本文详细研究了基于静态CCD摄像机的室内移动机器人全局定位方法及其应用,并结合Pioneer2-DX移动机器人进行了实验研究。 本文建立了室内移动机器人全局定位环境模型。所用
本文分析了危机及危机应急处理相关概念、性质和应急决策的基本理论。阐述了航天发射的基本过程和特点。结合航天发射的复杂性和高风险性等特点,设计了一个航天发射事故应急系