论文部分内容阅读
在现代信息科技不断发展和进步的21世纪,基于生物特征进行身份认证的技术也在不断改进和日益成熟,声纹识别因具有远距离、多设备采集数据等独特优势,在其技术发展的50余年中逐步趋于商业化。但目前互联网大规模的语音数据包含各种问题,例如多信道,多种背景噪声,语音时长过短等,而传统的声纹识别方法不仅步骤繁琐,在大规模数据的条件下模型性能还会明显下降。针对上述问题,本课题主要研究了基于端到端神经网络的声纹识别模型,将不同的语音段映射到一个高维的嵌入空间中,通过嵌入间的距离比较说话人之间的相似性。首先,本课题选择FBank作为端到端模型的声学特征,并提出基于频域卷积的Res-FD-CNN主干网络,该网络利用残差网络中的残差块结构和独立卷积层进行重复堆叠,以提取到高层帧级别特征,同时添加频域卷积层作为最后一层卷积重点学习频域信息,并通过时间平均池化层提取到深度说话人嵌入。实验验证了ResFD-CNN主干网络在计算量小于标准ResNet结构的前提下同样能达到较优的效果。其次,本课题结合Res-FD-CNN主干网络和三元组损失函数组成基于特征间欧氏距离的声纹识别模型,该模型通过Softmax损失函数进行预训练,使高维的嵌入空间上能够初步划分类别分类面,减小三元组损失的训练难度。设计实验同时对比了两种不同的三元组挖掘策略,其中在预训练模型的基础上只训练最困难的三元组比训练所有不满足条件的三元组效果更好。最后,本课题构建了基于分类网络的端到端声纹识别模型,选择基于角度域改进的A-Softmax作为损失函数,并利用一种拼接相同说话人下不同短语音的训练方法,使该模型学习到的嵌入空间中对于不同类别的特征间始终存在一定的角度间隔。设计实验验证了该模型优于基于三元组损失的声纹模型,推导出基于角度间隔改进的损失函数更适用于大规模、多类别的语音数据训练,能得到类别区分性更好的深度说话人嵌入以及泛化能力更强的声纹识别模型。