论文部分内容阅读
我国是多民族统一的国家,随着科技和社会的进步,通信技术在少数民族地区已得到普及应用,民族语对话系统、多民族语信息查询系统、多民族语语音识别系统和民族语口语翻译系统的应用需求也成快速增长之势,而少数民族语言的语种识别是这些系统的组成部分。因此,这是一项复杂、有挑战性、有意义的研究工作,值得我们去深入研究。本文基于实验室设计制作的电话语音少数民族语种识别数据库,探索提高少数民族语种识别正确率的方法,着重解决少数民族语种识别中所遇到的汉语借词影响识别率的问题。论文的主要工作包括:1、搭建基于GMM-UBM模型的语种识别系统框架,以此作为基线系统。在特征提取模块,采用了RASTA滤波,VAD和倒谱域减均值等技术以提高特征参数对噪声和信道的鲁棒性,在此基础上,提取SDC声学特征参数。在训练模块,采用基于MLE准则的训练方法先训练出通用背景模型(UBM),再以此为基础,自适应出各个语种的声学模型。在测试模块,首先对得分进行归一化,以似然值最大作为判决规则。2、为了进一步提高少数民族语种识别系统的性能,把基于MMI准则的区分性训练应用到基线系统框架中。传统的MLE准则着重于调整模型参数,而MMI准则更着重于调整模型之间的分类面,可以更好的对训练数据进行分类。测试结果表明,改进后的GMM-MMI系统对不同时长测试语音的识别正确率均高于基线系统。3、考虑到民族自然语流中汉语借词的发音因受民族语发音的影响而带有其民族语口音的特点,根据分类器融合的原理,在特征层提取超音段信息(基音频率F。)对SDC特征进行互补,以更好地刻画含有汉语借词的民族语语音特征。以基音频率F0作为支持向量机(SVM)的输入,进行语种模型的训练。在决策层,测试语音首先通过GMM-MMI分类器和SVM分类器分别进行分类,然后将两个分类器的识别结果进行线性融合。实验结果表明,两种系统融合后的识别率比单独的使用GMM-MMI分类器和SVM分类器分别上升了18.00%和2.48%,而3s(含汉语借词)语句的识别率则分别上升了25.83%和3.7%,且汉语借词的影响也几乎可以忽略不计。这说明,融合后的MMI.SVM系统有效降低了汉语借词对少数民族语种识别的影响。