基于GMM的说话人识别技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:tienan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别属于身份认证的范畴,其目的是通过语音信息的分析来辨认或确认语者的身份。由于其安全、便捷、经济的优势显著而受到研究者们的青睐。随着移动互联网技术的发展,语音识别技术受到前所未有的关注,而说话人识别技术属于语音识别技术的一个分支也获得了一次发展的契机。说话人识别技术在电子商务、银行、司法以及军事领域存在着巨大的应用价值。说话人识别技术通过语音数据的训练得到说话人模型,再将待测语音特征与说话人模型进行匹配,进而对说话人的身份做出判断。由此可见,要实现说话人识别需要解决以下几个基本问题:对语音信号的预处理;建立说话人模型;测试音与说话人的匹配距离计算。  本研究针对复杂环境下传统的语音端点检测方法效果不理想的问题,利用语谱图直观性与时频域结合分析的优势,提出语谱图端点检测法,从语谱图入手,找到语音与噪声本质上的差异并获得最佳划分阈值。结合小波变换的多辨性和语谱图直观的时频分析特性,提出基于小波语谱图分析的语音去噪法。随着系统注册的人数增加,识别速度会逐渐降低,导致系统的实时性减弱,而无法满足用户的要求。在分层识别的思想下提出基于模型密度的说话人聚类法,聚类过程需解决下面两个问题:无监督式的聚类往往使得各个类成员差别很大,并不能缩短整体的识别时间。说话人模型属于多参数的复杂模型,如何有效地度量两个模型间的相似程度。对于论文提出均匀划分的策略,使得聚类后的各类成员数在设定的范围内;对于论文在近似KL散度的基础上提出模型密度的概念,主要用于度量某个模型相对于类中所有模型而言的亲密程度,并进而作为产生新的类代表的依据。实验结果证明,所提出的小波语谱图去噪法的能够适应多种环境,满足说话人识别的要求;所提出的基于模密度的模型聚类法,在模型规模为630时能够保证识别率损失小于1%的情况下,识别时间缩短约为传统方法识别时的1/4,并且随着模型规模增加,效果越明显。由实验结论可知,本研究提出的快速识别方法对提高说话人技术的实用性有重要作用。此外,介绍了语音前端处理,倒谱特征参数的原理及提取步骤,高斯混合模型的原理、局限性分析与解决策略等内容。
其他文献
伴随着网络技术和多媒体技术的飞速发展,多媒体数据已经成为人们获取信息的重要来源,如何对多媒体信息进行数字版权保护成为国际上研究的热门课题。数字水印技术作为版权保护
近年来,网络技术飞速发展,光纤传送带宽日益增大,网络容量也越来越大,其服务也日益丰富,这势必导致网络发生故障所造成的影响也越来越大。这就要求在高速网络发生故障时,能尽
装配线是当今装备制造业广泛采取的一种制造系统。装配线的设计与管理中的一个很重要的问题就是装配线的平衡,因为装配线的平衡与否直接影响到制造系统的生产效率。装配线平衡
WCDMA是国际上主流的3G标准之一,基于Release99物理层协议的WCDMA系统可以提供2Mbit/s的数据传输速率,目前这个速率已经可以支持手机的大部门功能,而一些较大的数据流量和较
蒸汽动力装置是大型船舶的主动力装置,它决定着船舶的航速性,机动性和续航力等重要技术性能。船用锅炉是蒸汽动力装置的一个主要设备,构成了船舶的主推进装置,在蒸汽动力装置
随着无损人脑成像技术的发展,人脑结构和功能研究的重点转移到图像数据的分析处理上。功能磁共振成像(functional Magnetic Resonance Imaging, fMRI)技术,凭借高分辨率、高
本课题以“863”计划专题项目“数字物位传感器及数字系统装备”为研究基础,是隶属于博士课题“点矩阵数字检测理论与槽体智能流量计的研究”的子课题。主要是针对博士课题中
近几十年来,来自物理学、生物学、数学、控制科学、计算机科学以及社会科学等领域的科学家逐渐开始对生命群集的协调运动现象产生出兴趣。生命群集是对现实世界中的生物群体(
无线技术已经广泛的运用于工业控制领域,特别在流程工业过程控制中,已经出现了成熟的国际标准,而且随着德国“工业4.0”概念的提出,中德“工业4.0推动联盟”的成立,无论是国
BACnet标准作为楼宇自控领域的唯一的开放性国际标准,得到了大部分的智能楼宇设备制造商的支持。而MS/TP协议是BACnet标准的专有协议,作为楼宇自控网络的底层协议具有很好的