论文部分内容阅读
声纹识别技术是生物识别技术的一种,它根据每个说话人具有不同的发声特点来对说话人的身份进行识别,又称其为说话人识别技术。说话人识别时受环境、信道、时长等因素的影响,用传统的说话人识别技术不能很好地克服这些因素的影响,导致说话人识别效果不佳,影响身份认证的安全性和高效性。近年来,随着人工智能的发展,利用深度学习技术对说话人识别进行研究已成为该领域的热点。本文主要研究了说话人识别技术中两种常用的深度学习方法,首先研究了卷积神经网络CNN(Convolutional neural network)在说话人识别技术中的应用,并对卷积神经网络中常用的代价函数和激活函数的组合进行了评测研究。其次基于传统的GMM-UBM模型提出了DNN-UBM模型的说话人识别方案。最后结合Android智能手机将基于深度学习的说话人识别模型应用在远程身份认证系统中。本文主要研究工作如下:(1)卷积神经网络由于网络结构复杂,在训练过程中导致参数寻优的过程较为缓慢。为了使说话人网络模型快速收敛,本文首先利用概率论的方法,对基于卷积神经网络的说话人识别模型训练中常用的二次代价函数和交叉熵代价函数进行理论推导,并给出了它们与不同激活函数的组合效果,同时针对优选的代价函数和激活函数的组合对参数寻优过程进行研究。最终给出一种能够优化说话人模型性能的组合方案。(2)传统的高斯通用背景模型GMM-UBM(Gaussian mixture model-universal background model)在说话人建模中忽略了说话人语音内容对说话人语音信号的影响,导致说话人识别系统性能不佳,提出了一种基于DNN-UBM模型的说话人识别方法。该方法利用有监督的UBM模型代替了无监督的UBM模型,同时将语音内容中包含的信息集成到说话人统计数据中,其后验概率结合标准的说话人特征共同作为模型中使用的说话人特征信息,为身份认证矢量I-Vector(Identity Vector)特征的提取创建了足够的统计信息。同时,对比研究了该模型在训练语料充足和语料不足的情况下,模型的识别性能和鲁棒性,探究了DNN在不同隐藏层数下该模型最佳的识别精度。实验结果表明,DNN-UBM模型在说话人识别任务上的性能优于传统的GMM-UBM模型,并且当DNN层数达到六层的时候,系统表现出最佳的识别效果。(3)说话人识别技术依赖语音传递的媒介设备将代表说话人身份的生物信息进行传递,从而实现远距离身份的认证。随着智能手机的快速发展,它作为说话人语音传递的媒介设备,将说话人识别技术应用在智能手机中有效解决了远距离身份认证的难题。通过借助Kaldi框架,训练了基于深度神经网络的说话人识别模型,并研究了Kaldi框架与Android技术进行融合的原理,将训练好的说话人识别模型移植到安卓智能手机中,结合Android智能手机实现了远程身份认证系统,取得了较好的体验感受和识别效果。