论文部分内容阅读
自然人机接口是计算机能否受到更广泛应用的关键技术。语音翻译是自然人机接口的典型应用,目前已经取得了一些成果,但仍存在许多问题有待进一步研究。尤其是由于自然口语本身的灵活性与多变性,导致其中的重复、冗余、省略等非规范化现象大量存在,加上在语音识别阶段无法完全避免的识别错误结果,这些都对语音翻译系统的后续处理过程产生了很大的影响,进而使得翻译质量低下。本文以条件随机场模型(Conditional Random Fields Model)为基础,开展对语音识别后的自然口语规范化及纠错处理(下文简称为口语规范化处理)的研究,主要工作和特点如下:1、详细介绍了条件随机场模型的理论及其对自然语言处理的重要意义,分析并比较了该模型相对于其它序列标注统计模型的优点。2、根据语音翻译系统目前存在的问题,专门开展了对自然口语中存在的非规范化现象及语音识别错误纠正问题的研究。3、采用了规则与统计结合的方法应用于本问题的处理。根据自然口语的特点,本文总结归纳了一些可以利用的语言规则。规则的引入解决了单纯基于统计方法存在的一些弊端。实验结果表明,这种方法比单纯基于统计的方法效果要好。4、设计编程实现了条件随机场模型,解决了现有的模型实现工具存在的内存需求过大的问题,也免除了使用现有工具时的中间环节,从而大幅度提高了工程效率。5、利用现有的语料库,设计了一个完整的实验系统。通过实验结果表明,基于条件随机场模型的口语规范化处理效果良好。