论文部分内容阅读
基于语音样例查询的关键词识别是关键词识别的一个重要分支,该类关键词识别不需要考虑关键词对应的文本信息就能够从音频数据中快速地搜索并返回与查询关键词相关语音段。因此,该方法主要应用于缺乏语音资源和语音学知识的小语种。近年来,随着国际化进程的不断加快,针对小语种的语音处理特别是关键词识别迅速进入人们的视野,成为现阶段语音处理的一个热点问题。本论文主要针对该领域的两个问题进行研究:第一,相对于传统声学特征,具有更高可区分性特征的研究:第二,针对采用隐马尔可夫模型(Hidden Markov Model,HMM)的关键词建模识别,研究样本稀缺情况下关键词模型的训练方法。近年来,随着学习方法的不断改进,深度神经网络(Deep Neural Network,DNN)在模式识别中得到了诸多成功的应用,引起了学术界广泛的关注。在语音识别中,基于DNN状态输出的DNN-HMM相比高斯混合模型(Gaussian Mixture Model, GMM)-HMM基线系统大大降低了语音识别词错误率。而由具有狭窄中间层,也称为瓶颈层(BottleNeck, BN)的DNN提取出的BN特征在GMM-HMM基线系统中也取得了接近DNN-HMM模型的语音识别词错误率。本文在相同的关键词识别框架下比较两种不同的特征:感知线性预测(Perceptual Linear Prediction, PLP)和BN特征,找出具有更高区分性的特征以提高识别系统性能。在基于语音样例查询的关键词识别中,采用统计建模的方法可以提升模型的稳健性。然而,在该类关键词识别中,关键词训练样本的数量极度缺乏,仅有十到二十个左右甚至更少。在这种情况下,如何更加充分的利用关键词样本中的包含的有效信息非常重要。本文在HMM识别框架中,使用最大后验概率(Maximum a Posterior)方法建立关键词模型,提高了识别系统在资源稀缺情况下的识别性能。另外,还验证了三种模型训练方法在关键词变化的情况下的有效性。本文提出的算法在标准的TIMIT及藏语数据库上进行了实验,从实验结果上证明了这些算法的有效性。