基于深度学习的说话人分割聚类技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户：hulisheng

【摘要】

：

【作者】

：

袁哲菲

【出处】

：

战略支援部队信息工程大学

【发表日期】

：

2021年01期

【关键词】

：

说话人分割聚类多头自注意力机制 AM-Softmax 中心损失分层整数线性规划

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人分割聚类技术是语音信号处理的一个重要技术,也是多种语音应用系统的重要组成部分,它在多说话人音频处理中发挥着重要作用。近几年以来,随着深度神经网络(Deep Neural Network,DNN)在语音领域的广泛应用,说话人分割聚类技术也得到快速发展。然而,目前说话人分割聚类系统的研究还不够成熟,在工业应用上的性能还有待提高。对于DIHARD挑战,受噪声、语音时长不平衡、重叠语音等影响,系统分割聚类错误率一直很高而且鲁棒性较差。基于此,本文通过分析基于DIHARD挑战的说话人分割聚类系统存在的问题,在网络结构、损失函数以及说话人聚类算法方面进行深入研究。具体研究成果如下:1.针对说话人特征提取网络中统计池化计算没有考虑语音各帧的差异性的问题,本文提出了一种基于双重自注意力机制的说话人特征提取方法。首先,对基于时延神经网络(Time-delay Neural Network,TDNN)的说话人特征提取网络引入多头自注意力机制。通过多层感知器学习语音帧的权重系数,计算加权均值和方差统计量,得到区分性说话人特征。其次,为了更好地利用注意力头捕捉的不同层面的说话人信息,提出对注意力头也引入自注意力机制进一步加强说话人特征的区分性。实验结果表明,双重自注意力机制的引入加强了网络对区分性说话人信息的提取,增强了x-vector的表征能力。在线性鉴别性分析(Linear Discriminative Analysis,LDA)维度为256时,系统性能相对于基线平均提升了1.99%。实验还研究了LDA维度以及在LDA过程对x-vector进行长度归一化对系统性能的影响。结果表明,当LDA维度上升至512维时,基线系统和双重自注意力机制系统性能均进一步提升。而归一化x-vector操作只提升了基线系统性能,对于双重自注意力机制系统没有显著提升。2.针对基于Softmax的交叉熵损失函数学习到的说话人特征类间分离程度不够,类内分散的问题,本文提出了两种改进损失函数的方法。一是直接对原始Softmax函数进行改进,通过引入AM-Softmax,对原始Softmax增加加性角度余量重新定义分类边界,增大类间距离的同时减小类内距离;二是引入辅助损失函数─中心损失,联合基于Softmax的交叉熵损失函数与中心损失共同监督网络训练,在保证Softmax函数学习类间差异的基础上,通过中心损失压缩类内距离,优化特征空间。实验研究发现,基于AM-Softmax的说话人特征提取网络在训练时损失收敛特性不好,这是因为引入角度余量实际上增加了对说话人分类的难度。为了保证损失正常收敛,通过引入超参数简化AM-Softmax训练。实验结果表明,简化后的AMSoftmax收敛特性良好,并在合适的优化器学习率设置下,系统性能达到最优,在LDA维度为512时,相对于归一化x-vector的基线平均提升了1.08%。对引入中心损失的方法进行验证,结果表明当中心损失的权重为0.005时,在LDA维度为256情况下,相对于归一化x-vector的基线平均提升了0.8%。3.针对凝聚式层次聚类(Agglomerative Hierarchical Cluster,AHC)算法在迭代聚类过程求解局部最优解带来的误差累积问题,本文考虑从全局优化角度重新定义说话人聚类任务,分别从两个角度进行了对比研究。一是将说话人聚类任务看成一个整数线性规划问题,通过最小化目标函数求解全局最优解;二是从图论的角度将说话人聚类任务视为图的最优分割问题。首先,分析了基于分层整数线性规划(Hierarchical Integer Linear Programming,HILP)的聚类算法,提出联合x-vector和HILP算法解决DIHARD挑战中综合多种音频领域的说话人聚类任务。其次,研究了基于概率线性鉴别性分析(Probabilistic Linear Discriminative Analysis,PLDA)得分矩阵和余弦相似度矩阵的谱聚类算法。实验结果表明,联合x-vector与HILP的聚类算法对系统性能提升较大,相对于基线系统平均提升了3.74%。而基于两种得分矩阵的谱聚类算法均低于采用AHC算法的系统性能。分析原因在于相似矩阵构造还不够合理。4.从系统整体优化角度出发,构建了联合双重自注意力机制、改进损失函数和HILP的说话人分割聚类系统。其中说话人特征提取网络的结构采用基于双重自注意力机制的特征提取框架,网络的损失函数采用AM-Softmax,聚类算法采用基于HILP的说话人聚类算法。实验结果表明,该系统有效综合了各个改进方法的优势,系统性能得到很大提升,在LDA维度为512时,相对于归一化x-vector的基线系统平均提升了2.2%。

其他文献

科尔沁沙丘—草甸湿地水热碳通量变化及响应机制研究

科尔沁沙地隶属我国北方典型的干旱半干旱荒漠化地区,是受气候变化和人类活动影响严重的敏感性区域,过度放牧造成土地荒漠化严重,下垫面又存在较大的异质性,使得陆-气之间的

学位

CVT主动带轮轴全自动生产线的研发

目前,国内CVT(Continuously Variable Transmission)自主制造企业因其传统的生产方式以及相对落后的制造技术导致其产能和产品质量难以满足市场需求。基于此,本课题以实现CVT重要零部件主动带轮轴的自动化生产为目标,进行主动带轮轴全自动生产线的研发,这对于提高CVT制造企业产能、降低生产成本以及提高产品竞争力具有重要意义。根据生产线设计要求和生产纲领,确定该生产线生产节

学位

主动带轮轴生产线结构设计Flexsim仿真

弹性金属塑料瓦在小水电站的应用

本文介绍永丰县阳固山水电站用弹性金属塑料瓦替换巴氏合金瓦的应用效果，并提出弹性金属塑料瓦在安装、使用中应注意的事项。

期刊

弹性金属塑料推力瓦小水电站应用温度水导瓦发电机组效益稳定性

基于支架式教学法的对韩汉语中级口语教学

随着韩国三星集团在西安建厂落户,越来越多的韩国人来到西安定居、工作、游玩。TSC口语考试(Test of Spoken Chinese)作为韩国三星公司选拔具备优秀汉语交际能力人才的一项口

学位

建构主义支架式教学法TSC口语考试情境意义协商

基于深度学习的说话人分割聚类技术研究

其他学术论文