基于条件随机场的口语规范化处理研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:mirror722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然人机接口是计算机能否受到更广泛应用的关键技术。语音翻译是自然人机接口的典型应用,目前已经取得了一些成果,但仍存在许多问题有待进一步研究。尤其是由于自然口语本身的灵活性与多变性,导致其中的重复、冗余、省略等非规范化现象大量存在,加上在语音识别阶段无法完全避免的识别错误结果,这些都对语音翻译系统的后续处理过程产生了很大的影响,进而使得翻译质量低下。本文以条件随机场模型(Conditional Random Fields Model)为基础,开展对语音识别后的自然口语规范化及纠错处理(下文简称为口语规范化处理)的研究,主要工作和特点如下:1、详细介绍了条件随机场模型的理论及其对自然语言处理的重要意义,分析并比较了该模型相对于其它序列标注统计模型的优点。2、根据语音翻译系统目前存在的问题,专门开展了对自然口语中存在的非规范化现象及语音识别错误纠正问题的研究。3、采用了规则与统计结合的方法应用于本问题的处理。根据自然口语的特点,本文总结归纳了一些可以利用的语言规则。规则的引入解决了单纯基于统计方法存在的一些弊端。实验结果表明,这种方法比单纯基于统计的方法效果要好。4、设计编程实现了条件随机场模型,解决了现有的模型实现工具存在的内存需求过大的问题,也免除了使用现有工具时的中间环节,从而大幅度提高了工程效率。5、利用现有的语料库,设计了一个完整的实验系统。通过实验结果表明,基于条件随机场模型的口语规范化处理效果良好。
其他文献
学位
自从1999年Napster的流行,人们对P2P技术的研究日益升温,呈现出迅猛发展的势头。P2P网络使Internet重返自由和平等的本质,极大地提高了资源的利用率,使得资源共享上升到了一
Web服务作为Internet上的一种开放的、模块化的应用,已经得到了工业界和学术界的广泛承认。然而,单一的Web服务提供的功能难以满足用户复杂的需求,使得Web服务自动组合技术成
随着移动互联网技术的迅猛发展,智能手机和移动应用已经融合到社会生活中;人们对移动应用的需求不再仅仅停留在功能和内容层面上,而是对产品的用户体验提出了更高的要求。可用
经过长期的数字化校园建设,许多高校完成了部门应用系统的建设。这些系统虽然功能完善,但是却不能有效的进行信息共享和服务共享。如何整合这些系统成为一个重要的问题。 而
学位
Godel语言是继Prolog语言之后出现的逻辑程序设计语言,它建立在多态多类的一阶逻辑基础之上,摒弃了Prolog语言中的非逻辑成分,集成了许多语言的有效成分和优点,引入了类型系统,这
柔性制造系统(FMS)是高度复杂的系统,具有耗资大、风险高、技术密集等特点,其设计和实现过程非常复杂。因此,在柔性制造系统投入实施和运行之前,需要利用合适的方法对其进行准确
本文作者针对中国象棋的计算机博弈存在一些问题,提出了一种利用象棋大师知识的新搜索剪枝算法,相关实验证明该方法在博弈树搜索中的有效性。对于残局阶段的计算机博弈,有学
随着互联网产业的飞速发展,新的互联网技术层出不穷,网络内容呈爆炸式增长之势。面对如此海量、繁杂的互联网信息资源,尤其是以RSS为代表的网络动态内容,读者的网络阅读行为模式