【摘 要】
:
语音是最直接、最自然的人机交互方式之一,说话人识别正是一种依据人的语音信息区分说话人,从而实现身份认证的的生物特征识别技术。深度学习具有强大的特征抽象和数据建模能力,目前已经在图像分类、机器翻译等领域获得了巨大的成功。本文以提升说话人识别系统整体性能为目的,对说话人识别技术中的关键算法进行研究。在此过程中,选用目前最主流的梅尔频率倒谱系数(Mel-Frequency Cepstral Coeffi
论文部分内容阅读
语音是最直接、最自然的人机交互方式之一,说话人识别正是一种依据人的语音信息区分说话人,从而实现身份认证的的生物特征识别技术。深度学习具有强大的特征抽象和数据建模能力,目前已经在图像分类、机器翻译等领域获得了巨大的成功。本文以提升说话人识别系统整体性能为目的,对说话人识别技术中的关键算法进行研究。在此过程中,选用目前最主流的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为特征参数,结合深度学习理论,从基于高斯混合模型(Gaussian Mixture Model,GMM)的传统说话人识别、基于深度学习的分类式说话人识别、基于深层特征的编码式说话人识别三个方面展开讨论。GMM为目前应用最广泛的传统说话人识别算法,本文研究并实现了一个基于GMM的说话人识别系统。分别利用本实验室语音库与Aishell语音库对该系统性能进行验证,并在Aishell语音库上探究了其识别率随训练样本数、待识别说话人数量以及噪声环境的变化情况。由于GMM对非线性数据的建模能力存在缺陷,本文使用深度学习模型代替GMM建立说话人模型。分别采用卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)两种网络结构设计了分类式说话人识别算法,并使用Dropout与批规范化机制防止训练过程中的过拟合问题,从而提高网络的泛化能力。通过与GMM系统综合对比后发现,CNN针对少量训练样本和大量待识别说话人的情况表现最佳,而LSTM则具有更好的噪声鲁棒性。据此,本文提出了一种得分融合说话人识别算法,该算法将测试数据并行地输入训练好的两种识别网络,对各网络得分归一化处理之后进行算术平均,从而得到最终的识别结果。实验证明,得分融合说话人识别算法在各种测试条件下都明显具有最好的识别性能。为了解决实际应用中待识别说话人数量不确定以及目标说话人语料不足的问题,本文选用x-vector框架实现了基于深层特征的编码式说话人识别算法,将训练好的神经网络作为特征向量编码器,实现MFCC到身份编码向量的转换。原始的x-vector框架通过平均池化的方式进行数据汇集,对于每一帧赋予相同的重要性,这种计算方式并不合理。本文将注意力机制的思想应用于统计池化层对其进行改进,计算加权均值与标准差,取得了更好的实验结果。标准的Softmax loss通常擅长优化类间差异,但不擅长减少类内差异。本文引入了三种新型损失函数来解决上述问题,并通过实验探究了它们的超参数取值对算法性能的影响,用以指导未来研究工作中参数的取值。实验结果表明三种新型损失函数的判别效果相对于标准的Softmax loss均有较大提升,并且其中AMSoftmax loss与Arc Softmax loss的性能略优于ASoftmax loss。
其他文献
随着数字媒体向虚拟性、互动性上的发展,互动性数字媒体技术的惊艳视觉效果和良好的互动体验被应用的更加深入,传统展示形式发生改变,人们的审美情趣也随之悄然的发生转变,将数字媒体技术与传统冰雪雕艺术相结合,以冰雪雕主题公园为展示载体,在提升冰雪雕主题公园体验性的同时更可以探求冰雪雕艺术与数字媒体技术结合后的发展新途径。而针对互动性数字媒体技术在冰雪雕主题公园中的应用研究,本文从如下几个方面进行了探讨分析
全无机卤化铅铯(Cs Pb X3)钙钛矿纳米晶(NCs)由于其高的量子效率、窄带发射、可调谐的发射波长等优势而应用于光学和光电子等领域。然而,其差的稳定性以及有毒元素铅带来的环境问题阻碍了其应用。为了提高Cs Pb X3NCs水稳定性,我们将Cs Pb X3NCs合并到更加稳定和紧密的无机玻璃基质中,使其应用于光催化裂解水产氢领域。根据以上研究要点,本论文主要分为以下部分:1.采用熔融-热淬法和原
汽车轻量化对副车架的综合性能提出了更高的要求,针对于铸造铝合金副车架铸件的发展趋势,主要表现在三个方面:大型整体化,高强高韧化和复杂精密化。ZL201具有密度小、耐腐蚀性优良等特点常应用于高强度铸件的制造中,但是由于其流动性差,导致铸件在浇铸过程中常常出现充型不完全、热裂等问题。基于集成计算(理论计算与实验相结合),定量描述了铸造铝合金“制备工艺-显微结构-性能”的关系,避免了ZL201铝合金副车
20世纪30年代,中国出版界正处于民营主体占据优势的黄金时期,众多走在时代前列的知识分子开始自行创办图书出版公司。赵家璧作为其中一员,也试图以出版书籍的方式实现自己的理想抱负。本文主要从赵家璧的图书出版活动来探究他的文化追求。论文以赵家璧在从事出版工作的过程中所写的序跋、书信、广告等应用文为切入点,结合具体出版实践,对赵家璧的出版理念和审美追求进行详细阐述,进而剖析出这位具有进步学者风范的出版家的
近年来,我国老龄化程度不断加重,青壮劳力大量进城导致农村常住人口老龄化程度更重,“空巢”老人和独居老人日益增多,农村传统养老模式面临空前挑战。作为由基层自发探索形成的农村新型养老模式,农村幸福院为应对农村养老困境提供了新思路,成为农村养老服务体系的有效补充。由于农村幸福院正处于探索发展阶段,当前过多重视硬件设施建设,忽视了老年人养老服务需求。老年人养老服务需求与农村幸福院的养老服务供给错位可能会削
近年来,随着信息技术的快速发展,以及互联网技术的普及,网购呈现出一种“井喷”之势。与传统的线下购物相比,网购存在诸多不确定因素,消费者既不能接触到商品实物、感受到实体空间,也无法与商家进行面对面的沟通与交流,较容易发生服务失误以及消费者不满现象。现实中,网购存在的服务失误较多,导致消费者对电商提供的广告宣传、商品质量、售后服务等提出质疑。本研究以服务补救理论为基础,采用文献研究法、专家访谈法、问卷
密云水库是北京市重要地表水源地,在首都经济发展中发挥着重要作用。随着密云水库水位上涨以及库滨带工程建设,其生态环境发生了一系列变化。本研究通过设立十二个不同植被配
近年来,随着移动互联网的迅猛发展,基于移动手机终端的位置服务需求越来越多。与此同时,室内定位技术也越来越受到重视,逐渐成为国内外研究的热点领域。然而,由于室内环境的复杂性,传统的室内定位方法并不能达到很好的定位精度和稳定性。针对以上问题,本文设计完成并改进了基于机器学习的室内定位算法。由于蓝牙4.0技术功耗低、成本低以及方便部署等特点,本文选用蓝牙4.0技术作为研究的定位方式。首先,本文利用移动手
海洋信息传输受限是制约海洋开发的重要因素,水声通信作为目前水下唯一远距通信手段,其依然存在通信速率低、通信链路稳健性较差的不足。论文针对水下平台对水面平台的上行通信链路展开研究,设计基于OFDM的多通道水声通信接收机,通过多通道处理提升通信性能,可覆盖潜标数据回传以及潜航器上行通信等应用场景。OFDM技术具有频带利用率高,可有效对抗频率选择性衰落和多途时延扩展的优势。论文首先对水声OFDM通信算法
手性吲哚骨架广泛存在于天然产物、药物及功能材料中,通过不对称碳氢键(C-H)活化是制备具有光学活性手性吲哚化合物的最直接、最有效的途径。为了实现吲哚2-位的不对称功能化