基于GMM和SVM的说话人识别方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:mengyidaocaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术是生物认证的一种,它是根据说话人语音波形中能反映说话人生理和行为个性特征的语音参数来自动鉴别说话人身份的过程,该技术以其显著的使用方便、经济和有效等优势在许多领域中有着广泛的应用前景。   本文主要研究了噪声环境下文本无关的说话人识别的相关内容。为改善系统识别率和系统响应时间,本文在介绍说话人识别基本原理的基础上,重点围绕识别模型和语音去噪两方面进行研究。在识别模型方面,详细介绍了高斯混合模型(GMM)和支持向量机(SVM)模型的理论知识,并针对两者自身的优缺点,本文提出了两种GMM和SVM相结合的方法,实验证明这两种混合模型都可以改善系统性能。针对噪声环境下,系统识别率急剧下降的问题,本文在原有小波阈值去噪的基础上提出了一种改进的阈值函数并采用了区分清浊音的小波去噪方法,实验证明这些改进可取得更好的去噪效果。具体研究工作如下:   (1) GMM属于概率统计模型,有很强的数据描述能力和较弱的数据分类能力。SVM模型属于分类器模型,有很强的数据区分能力和较弱的数据描述能力。结合这些特点,本文提出了用GMM对大样本特征参数聚类得到能更好表征说话人个性特征的小样本的GMM模型参数作为SVM特征参数的模型结合方法。实验证明该模型既可以改善系统响应时间又可以提高系统识别率。   (2)当说话人集合比较大时,针对SVM识别耗时的问题,本文又提出了另一种GMM和SVM相结合的方法。通过实验可知,对于相同的特征数据,在识别阶段,一般情况下GMM比SVM所用的时间短,而且我们还可发现即使GMM识别错误,但如果将最大后验概率按由大到小进行排序,正确说话人模型所对应的最大后验概率还是比较靠前的。根据这些特点,本文提出了用GMM作首次识别用SVM做二次识别的结合模型,通过GMM的首次识别来确定几个最有可能的结果来缩小用于SVM识别的说话人集合,从而进一步改善系统响应时间。   (3)在安静环境下,系统可以取得比较满意的识别率,针对噪声环境下系统识别率急剧下降的问题,本文提出了一种改进形式的小波阈值函数,且采用区分清浊音的去噪的方法,实验证明这些改进可以改善去噪效果。  
其他文献
在很多图像分析技术中,图像分割已显得越来越重要。图像分割是图像处理前的一项关键技术。如果图像能够得到有效的分割,在后期的图像处理中就可以得到很多有效信息,如果在图
随着高速列车仿真模拟、物联网应用等领域对计算机计算速度要求的不断提高,单个的计算机已无法满足这么高的计算速度的要求。将一个大的计算任务分解成若干个小的计算任务,并
随着人类对计算机性能需求的不断提高,处理具有严格时间限制的计算密集型实时应用时,单核处理器已经显得力不从心,人们把提高计算机性能的需求通过采用多核处理器来实现。目
近年来,ROF(Radio-over-Fiber)技术被认为是提供宽带无线接入的有效途径,频率下变换技术作为解决ROF系统中接收模块高指标要求导致的高成本问题的主要方法,成为了国内外研究
随着信息技术的不断发展,电子商务、网上业务日益繁荣,人们的日常生活越来越离不开计算机网络,由于网络的开放性,各种安全威胁随之而来。身份认证作为保护网络信息资源的第一
心血管疾病病发突然、治愈率低、死亡率高,因此临床医生对心血管疾病的研究十分重视。医生借助于临床影像技术可以观察到患者内部的心脏解剖构造,获得更多有利于诊断分析的信息,从而改善治疗效果。图像分割技术可以从复杂的医学影像中直接获取目标组织边界,指导医生制定治疗方案以及提高诊断效率,因而近年来受到了极大关注。本文结合心脏的解剖学知识,掌握其在医学影像中呈现的图像特征,针对心脏医学图像的分割展开深入研究。
学位
复杂网络作为生活中电力系统、通信网络和万维网等复杂系统的高度抽象,复杂网络社团结构表示着网络中的节点聚合的趋势,是复杂网络的一个重要的拓扑属性。社团检测可以有效认
随着现代无线通信技术的发展,越来越多的无线系统与应用不断出现,对频谱资源的需求也越来越大。然而,当前广泛采用的固定频谱分配方式导致频谱资源日益稀缺。另一方面,实际的测量
一般,基于光电效应的光传感器只能记录光场的强度信息,无法直接获得其中的相位分布。如何通过测量的光强来推算出光场的相位分布,从而重构光场的复振幅分布,这就是所谓的相位检索
在多核(Multi-core)处理器蓬勃发展的今天,以双核,四核处理器为代表的多核产品越来越深入到人们的生活中。人们在享受多核产品带来的便利高效时,也从未停止过提高其性能的步