论文部分内容阅读
随着全球经济一体化的发展,人们对国际化信息的渴求越来越强烈。为了解决不同语言之间的交流障碍,语音翻译应运而生。通常语音翻译由语音识别、机器翻译、语音生成三分部组成,其中语音识别文本是连接三个模块的纽带。然而口语自动语音识别文本通常包含重复、停顿、修正、冗余等不流利因素。识别并移除这些不流利因素有助于提高后续自然语言处理任务的质量。 本文主要研究了如何对口语中的不流利现象建模,识别并移除不流利因素,使口语文本书面化。本文首先提出多种基于依存句法结构的特征并利用条件随机场模型(CRF)完成对不同类型的口语不流利现象的检测。重点研究了不同类型不流利检测的区别,以及不流利检测任务对机器翻译的重要影响,实验结果表明口语不流利检测可以提高机器翻译质量。同时本文研究了最大间隔马尔科夫网模型(M3N),并将该模型应用在了不流利检测任务中,得到了良好的识别性能。然后本文根据不流利检测特点和以往工作中的不足提出了基于反向依存句法分析的不流利检测算法,并根据考虑问题的不同角度分别提出了BCT模型和UT模型。本文提出的模型能够充分利用句子中长距离的依存关系,结合了多种句法特征和口语不流利特征,并能够在线性时间内同时完成不流利检测任务和依存句法分析任务。最后本文将多种现有算法和本文提出的算法进行了全面的对比分析。实验表明,本文提出的算法在英文Switchboard数据集上获得85.1%的不流利检测F1值和92.2%的依存句法分析UAS值,均高于现有工作。此外,还将本文提出的算法在中文标注数据集上进行了测试,实验结果表明,本文提出的算法在中文上的识别性能高于基于CRF模型的方法。