论文部分内容阅读
随着大语种语音识别技术的发展成熟,资源稀少情况下(Low-resource Conditions)的语音识别逐渐成为重要的研究热点。本文针对资源稀少情况下语音识别(小语种识别)建模及优化问题,采用基于主动学习的方法对该领域的一些技术问题展开研究,集中体现在以下两个方面:首先针对声学模型训练数据缺乏导致模型参数估计不准的情况,采用困惑度准则挑选无标注的语音数据参与训练,并进一步在训练过程中采用配套优化方法,使模型估计的参数更加准确;其次,在词典扩充及语言模型增强方面,采用字嵌入(word embedding)算法挑选网络文本数据,用来扩充词典和增加语言模型训练语料,进一步提升识别系统性能。首先,搭建了资源稀少情况下的语音识别系统,采用深度神经网络进行声学建模;针对资源稀少情况下语音识别中专家语言学知识缺乏的困境,采用数据驱动的方式生成问题集进行状态绑定,以获取声学建模中所需的最佳建模状态数(三音子,triphone);针对训练语料不足的现象,通过深度神经网络具有的隐层共享特性,采用大语种训练得到的网络参数初始化目标语种神经网络模型参数。其次,在语音识别的声学建模过程中,需要较多有标注的数据来估计模型参数,对于资源稀少的语种(小语种),有标注的语料数据较少;另一方面,随着数据获取技术的成熟,可以获取大量廉价的无标注语音数据。在节约人工标注成本的前提下,本文采用困惑度准则对大量无标注数据进行有效选择,将筛选得到的无标注数据与原有标注数据一起参与声学模型训练;进一步在模型参数训练过程中,最后一次参数更新只采用有标注数据进行参数调优,明显改善语音识别系统性能。最后,对于资源稀少情况下的语音识别任务,往往会因为词典覆盖率很差而伴随出现大量的集外词,而且用于生成语言模型的文本语料相对较少,因此难以获取涵盖率较好的词典和区分性很强的语音模型,这两个方面都影响着语音识别性能的提升。随着互联网技术的高度发展,很容易从网上获取小语种的大量文本语料数据(web data),关键是如何筛选匹配的数据,本文采用基于word embedding的计算方法从web data中挑选词汇或句子,着手解决词典扩充和语言模型增强的问题,最终达到提升资源稀少情况下语音识别性能的目的。使用上述的改进方法,本文在NIST OpenKWS2015的Swahili语和NIST OpenKWS2016的Georgian语两个数据库上进行了相关实验验证,获得了明显的识别性能提升。