论文部分内容阅读
语种识别(Language Identification)的目的是判断所给语音片段所属语种,与说话人及说话内容无关的。随着“地球村”的日益发展和移动终端的普及,语种识别技术在提供多语种人工语音服务和军事安全等方面也有着极为重要的作用。本文主要研究电话语音的语种识别算法。具体来说:1、研究了语种识别中的特征提取,将MVDR和GFCC特征应用到语种识别中。针对电话语音噪声干扰较大的问题,本文研究了说话人识别中的特征MVDR、GFCC,将其应用到UBM-GMM(?)吾种识别系统中分析其抗噪声鲁棒性,并进行参数优化。2、研究并搭建了语种识别中主流的UBM-GMM、PPRLM以及SVM三个基线系统,并进行改进研究。在UBM-GMM系统中,针对训练样本的不足以及样本质量不一的问题,通过选择边界样本对模型进行训练优化,提高模型的准确性;针对测试语音中存在多种语种片段干扰和短时噪声的问题,提出按时长分段得分方法对得分进行优化,使得系统在短时测试集识别准确率有了一定提高。在PPRLM系统中,建立了基于汉语音素识别器的PRLM系统,并分析训练语言模型过程中不同的内插背景模型对建模的影响。相比没有内插时,系统识别准确率有了较大提升。在SVM方面,建立了基于GMM的SVM识别系统,分析了高斯得分矢量和GSV两种方法在语种识别中的应用。GSV可以获得更好的识别准确率,并且识别准确率优于UBM-GMM系统。3、基于多特征和多分类器的集成学习研究。针对单一基线系统识别准确率较低的问题,本文从多特征集成和多分类器集成两个方面展开研究。两种集成学习在一定程度上提升了系统最终识别准确率,基于三种基线系统的多分类器集成学习优势较为明显,说明各基线系统之间存在较强的互补性。