论文部分内容阅读
语音是人类社会中最便捷的交流方式,由于先天发音器官与后天说话习惯的差异,每个说话人都有自己独特的个性特征。特征参数和模型框架是说话人识别率的两个重要决定因素,当模型框架确定的情况下,辨认系统的性能则主要取决于说话人特征参数的选择与提取。在如今计算机高速发展的时代,寻找出具有高度表征性和区分性的特征参数是一个很有价值的课题。本文的研究目标是提取不同于传统语音特征参数的深度特征,从而在识别率与时间复杂性这两个角度改善说话人辨认系统性能。首先研究了高斯混合模型GMM与深度信念网络DBN,并将两者结合起来提取出特征—深度高斯关联超矢量DGCS;然后研究了这几年在图像识别任务上取得巨大成就的CNN,并设计了一个CNN模型用来提取说话人深度融合特征。本论文的主要内容与创新总结如下:(1)对说话人识别的基础知识作了全面的介绍,包括说话人辨认基本原理、特征提取的流程和主要识别模型。首先,对MFCC与LPCC特征的提取流程作了具体描述。接着介绍了GMM、GMM-UBM通用背景模型、SVM以及深度神经网络这几种经典的说话人识别模型。根据前期研究,这几种模型在说话人辨认系统中性能较好,因此本文也是基于以上这几种模型来展开对说话人辨认的研究。(2)为了更充分地挖掘说话人的身份信息,在研究DBN与GMM-SVM的基础上提出了DGCS特征。传统的高斯超矢量是直接把MFCC作为GMM输入得到的。而本文先将MFCC输入到DBN中提取瓶颈特征,再把瓶颈特征作为GMM的输入提取DGS。依据DGS的均值矢量在一定范围上是相互关联的,将均值矢量进行重组后构造出DGCS。DGCS能携带更加充分的说话人身份信息,它也更契合SVM善于处理高维小数据的特点。实验仿真表明,相比于传统的高斯超矢量、高斯关联超矢量和DGS,DGCS不仅有效地提高了识别率,还减少了SVM建模时间。(3)基于融合特征性能的优越性,利用卷积神经网络构造出一种CNN融合特征。先将说话人语音材料转换成语谱图,然后将语谱图作为CNN的输入构建说话人辨认系统。研究表明CNN网络层数对系统性能有着重要的影响。为了更好地利用不同层的特征的优势,本文将识别率较好的两个不同层数下的CNN特征进行融合。实验仿真表明,基于CNN融合特征的说话人辨认系统在识别率上取得了很好的效果。