基于深度特征的说话人辨认技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:feihuaxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类社会中最便捷的交流方式,由于先天发音器官与后天说话习惯的差异,每个说话人都有自己独特的个性特征。特征参数和模型框架是说话人识别率的两个重要决定因素,当模型框架确定的情况下,辨认系统的性能则主要取决于说话人特征参数的选择与提取。在如今计算机高速发展的时代,寻找出具有高度表征性和区分性的特征参数是一个很有价值的课题。本文的研究目标是提取不同于传统语音特征参数的深度特征,从而在识别率与时间复杂性这两个角度改善说话人辨认系统性能。首先研究了高斯混合模型GMM与深度信念网络DBN,并将两者结合起来提取出特征—深度高斯关联超矢量DGCS;然后研究了这几年在图像识别任务上取得巨大成就的CNN,并设计了一个CNN模型用来提取说话人深度融合特征。本论文的主要内容与创新总结如下:(1)对说话人识别的基础知识作了全面的介绍,包括说话人辨认基本原理、特征提取的流程和主要识别模型。首先,对MFCC与LPCC特征的提取流程作了具体描述。接着介绍了GMM、GMM-UBM通用背景模型、SVM以及深度神经网络这几种经典的说话人识别模型。根据前期研究,这几种模型在说话人辨认系统中性能较好,因此本文也是基于以上这几种模型来展开对说话人辨认的研究。(2)为了更充分地挖掘说话人的身份信息,在研究DBN与GMM-SVM的基础上提出了DGCS特征。传统的高斯超矢量是直接把MFCC作为GMM输入得到的。而本文先将MFCC输入到DBN中提取瓶颈特征,再把瓶颈特征作为GMM的输入提取DGS。依据DGS的均值矢量在一定范围上是相互关联的,将均值矢量进行重组后构造出DGCS。DGCS能携带更加充分的说话人身份信息,它也更契合SVM善于处理高维小数据的特点。实验仿真表明,相比于传统的高斯超矢量、高斯关联超矢量和DGS,DGCS不仅有效地提高了识别率,还减少了SVM建模时间。(3)基于融合特征性能的优越性,利用卷积神经网络构造出一种CNN融合特征。先将说话人语音材料转换成语谱图,然后将语谱图作为CNN的输入构建说话人辨认系统。研究表明CNN网络层数对系统性能有着重要的影响。为了更好地利用不同层的特征的优势,本文将识别率较好的两个不同层数下的CNN特征进行融合。实验仿真表明,基于CNN融合特征的说话人辨认系统在识别率上取得了很好的效果。
其他文献
创新创业已经成为当今时代经济发展的主要依赖,也是国家经济长期持续稳步增长的重要途径。面临以投资和创新驱动的社会主义市场经济新常态,市场环境日新月异,行业发展方向、
【正】 张载是具有唯物论宇宙观的理学家,他的唯物论宇宙观与其整个理学体系存在着不相侔合的矛盾。“天人合一”思想蕴含着这种矛盾的基因。本文通过对张载“天人合一”思想
为了获得不同渗透预处理试剂对罗非鱼热泵干燥综合品质的影响,以罗非鱼为实验材料,以干燥时间,Ca^2+-ATPase活性、复水率、白度、硬度及其综合评分作为指标,进行了罗非鱼经不同浓
当前我国的信息化技术不断地发展与应用,促进了我国各行各业的信息化建设。企业在进行档案管理的过程中,由于受到传统的档案管理方式的限制,导致档案数据信息不能够充分地发
本文针对黄河三角洲地区水资源短缺,供需矛盾突出的现状,提出结合当地实际情况的海绵城市构筑思路。在水资源高效利用,防洪减灾,缓解水资源供需矛盾等领域起到技术指导和试点应用
克拉玛依石化分公司60万连续重整PSA装置的尾气双螺杆压缩机(LG77/0.5),自装置2011年12月开工运行后,为保证机组喷液冷却正常进行,需要从机组入口频繁补入冷却介质(汽油),故造成
胚胎着床的过程极为复杂,包括定位、粘附和侵入3个阶段。着床仅发生在一个极其有限的时间与空间范围内(即所谓的“着床窗”),需要子宫内膜和胚胎发育的同步化、相互作用和配合。
我国传统师范教育正被教师教育所取代,高等院校如何为教师教育一体化中的职前教育打好基础,是今日高校要努力探寻的问题.通过对师范教育一体化中的职前教育课程改革的诸多问
介绍了湿硫化氢腐蚀环境的定义及危害分级,分析了湿硫化氢各种腐蚀破坏类型并进行比较;同时探讨了湿硫化氢腐蚀开裂原理、类型间的联系与区别;基于湿硫化氢腐蚀原理,将其分为硫化
依据SARS的特性和目前所发布的相关信息资料,对SARS病房楼给排水设计中的设计指导思想、依据及针对SARS的特性而应在设计中注意的相关问题进行了分析、探讨.