论文部分内容阅读
说话人分割聚类技术是语音信号处理的一个重要技术,也是多种语音应用系统的重要组成部分,它在多说话人音频处理中发挥着重要作用。近几年以来,随着深度神经网络(Deep Neural Network,DNN)在语音领域的广泛应用,说话人分割聚类技术也得到快速发展。然而,目前说话人分割聚类系统的研究还不够成熟,在工业应用上的性能还有待提高。对于DIHARD挑战,受噪声、语音时长不平衡、重叠语音等影响,系统分割聚类错误率一直很高而且鲁棒性较差。基于此,本文通过分析基于DIHARD挑战的说话人分割聚类系统存在的问题,在网络结构、损失函数以及说话人聚类算法方面进行深入研究。具体研究成果如下:1.针对说话人特征提取网络中统计池化计算没有考虑语音各帧的差异性的问题,本文提出了一种基于双重自注意力机制的说话人特征提取方法。首先,对基于时延神经网络(Time-delay Neural Network,TDNN)的说话人特征提取网络引入多头自注意力机制。通过多层感知器学习语音帧的权重系数,计算加权均值和方差统计量,得到区分性说话人特征。其次,为了更好地利用注意力头捕捉的不同层面的说话人信息,提出对注意力头也引入自注意力机制进一步加强说话人特征的区分性。实验结果表明,双重自注意力机制的引入加强了网络对区分性说话人信息的提取,增强了x-vector的表征能力。在线性鉴别性分析(Linear Discriminative Analysis,LDA)维度为256时,系统性能相对于基线平均提升了1.99%。实验还研究了LDA维度以及在LDA过程对x-vector进行长度归一化对系统性能的影响。结果表明,当LDA维度上升至512维时,基线系统和双重自注意力机制系统性能均进一步提升。而归一化x-vector操作只提升了基线系统性能,对于双重自注意力机制系统没有显著提升。2.针对基于Softmax的交叉熵损失函数学习到的说话人特征类间分离程度不够,类内分散的问题,本文提出了两种改进损失函数的方法。一是直接对原始Softmax函数进行改进,通过引入AM-Softmax,对原始Softmax增加加性角度余量重新定义分类边界,增大类间距离的同时减小类内距离;二是引入辅助损失函数─中心损失,联合基于Softmax的交叉熵损失函数与中心损失共同监督网络训练,在保证Softmax函数学习类间差异的基础上,通过中心损失压缩类内距离,优化特征空间。实验研究发现,基于AM-Softmax的说话人特征提取网络在训练时损失收敛特性不好,这是因为引入角度余量实际上增加了对说话人分类的难度。为了保证损失正常收敛,通过引入超参数简化AM-Softmax训练。实验结果表明,简化后的AMSoftmax收敛特性良好,并在合适的优化器学习率设置下,系统性能达到最优,在LDA维度为512时,相对于归一化x-vector的基线平均提升了1.08%。对引入中心损失的方法进行验证,结果表明当中心损失的权重为0.005时,在LDA维度为256情况下,相对于归一化x-vector的基线平均提升了0.8%。3.针对凝聚式层次聚类(Agglomerative Hierarchical Cluster,AHC)算法在迭代聚类过程求解局部最优解带来的误差累积问题,本文考虑从全局优化角度重新定义说话人聚类任务,分别从两个角度进行了对比研究。一是将说话人聚类任务看成一个整数线性规划问题,通过最小化目标函数求解全局最优解;二是从图论的角度将说话人聚类任务视为图的最优分割问题。首先,分析了基于分层整数线性规划(Hierarchical Integer Linear Programming,HILP)的聚类算法,提出联合x-vector和HILP算法解决DIHARD挑战中综合多种音频领域的说话人聚类任务。其次,研究了基于概率线性鉴别性分析(Probabilistic Linear Discriminative Analysis,PLDA)得分矩阵和余弦相似度矩阵的谱聚类算法。实验结果表明,联合x-vector与HILP的聚类算法对系统性能提升较大,相对于基线系统平均提升了3.74%。而基于两种得分矩阵的谱聚类算法均低于采用AHC算法的系统性能。分析原因在于相似矩阵构造还不够合理。4.从系统整体优化角度出发,构建了联合双重自注意力机制、改进损失函数和HILP的说话人分割聚类系统。其中说话人特征提取网络的结构采用基于双重自注意力机制的特征提取框架,网络的损失函数采用AM-Softmax,聚类算法采用基于HILP的说话人聚类算法。实验结果表明,该系统有效综合了各个改进方法的优势,系统性能得到很大提升,在LDA维度为512时,相对于归一化x-vector的基线系统平均提升了2.2%。