说话人识别算法研究与说话人辨认系统实现

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:ying8939
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是最自然的生物特征身份鉴定方式,可分为说话人辨认和说话人确认。说话人识别根据包含在语音信号中的个性特征来自动识别说话人,其关键问题是特征参数选择与识别模型建立。目前,说话人识别的常用特征参数有线性预测编码(LPC)参数、LPC倒谱(LPCC)和美尔倒谱系数(MFCC)等,常用的识别模型有动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等。LPCC反映了说话人声道生理结构的差异,而MFCC则利用了听觉频率非线性特性,反映了人对语音的感知特性。希尔伯特-黄变换(HHT)自1998年提出,由于其处理时变、非稳态系统信号的较强的自适应能力,已得到了较广泛的关注和获得了许多成功的应用,目前也是语音信号处理的最新研究手段。这些特征参数各有其优势,但单独都不能充分描述说话人的个性特征,一般主要包含语义信息,也可能包含说话人的某些特征,综合利用方可使系统性能可靠。有鉴于此,在说话人识别系统中首先分别使用LPCC、MFCC和HHT提取出的参数作为特征参数,然后将MFCC与基于HHT提取出的特征参数有机地构成混合参数。本文采用Matlab工具试验比较了LPCC、MFCC、基于HHT提取出的特征参数、混合参数分别与DTW、DHMM(离散马尔可夫模型)、GMM(高斯混合模型)相结合的识别效果。接着,测试了GMM中高斯分量的选择对识别性能的影响。实验结果显示,对于说话人辨认,基于HHT提取出的特征参数有较好的识别率,基于混合参数和GMM相结合的识别率高于基于混合参数和DTW或DHMM相结合的识别率,并且混合参数明显优于单一的参数的性能。试验证明了基于HHT提取出的特征参数作为一种新的特征参数可以应用于说话人识别,将其与MFCC参数相结合构成混合参数,既利用MFCC能够较好地描述动态时间序列又利用HHT频率分辨能力强的特点,将该混合参数应用于说话人辨认系统,提高了系统的性能。对于说话人辨认系统,识别模型选择GMM,系统的识别性能是最优的,即识别率最好,训练时间较短。
其他文献
随着计算机网络技术的快速发展,信息安全问题日益突出,其核心技术基础之一的数字签名技术,被广泛地应用于军事、通信、电子商务和电子政务等领域,它在身份认证、数据完整性和
图书馆网站所提供的服务在高校的教学和科研方面有着重要的作用。如何进一步满足高校教师和学生新的需求是高校网站建设出现的新课题。这些新的需求包括师生因科研或学习方面
数字半色调技术是基于人眼的视觉特性和图像的成色特性,利用数学、计算机等工具,在二值设备或有限灰度级设备上实现图像再现的一门技术。该技术广泛应用于打印技术、数字图像
粗糙集理论(Rough Set theory, RS)是由波兰华沙理工大学Pawlak教授于上世纪80年代初提出的一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各类不
立体视觉是计算机视觉领域的研究热点之一,随着计算机技术的发展,立体视觉在机器人视觉、自主车导航、工业测量、物体识别及军事领域得到了广泛的应用。而立体匹配是立体视觉
天灾人祸都可能给信息系统带来毁灭性打击,造成数据丢失。此时,可以从备份中恢复数据。但随着数据量的爆炸性增长,传统的数据备份方案面临着越来越多的问题,包括时间、空间效
从神经生物学到统计物理学,从工程技术到经济社会等各种领域,关于复杂网络的研究最基本的议题都离不开结构。网络的拓扑结构是构建复杂系统模型、研究系统性质、功能和行为的
作为人类历史上信息传播的重要方式,文字直接承载着丰富而高级的语义信息。自然场景图像中的文字检测,对于场景理解、图像检索、人机交互等视觉任务都有巨大帮助。尽管电子文
近年来,随着大数据时代的到来以及IT产业的迅速发展,计算机病毒也在迅速演化,网络安全问题已经成为了一个重要的研究课题。当前,主要的安全威胁包括入侵攻击、网络蠕虫以及通
本文通过回顾办公自动化的发展历程,探讨并界定了新时期办公自动化的含义及特点。在此基础上,研究开发办公自动化系统软件的有关方法,并结合当前计算机技术、通讯技术、信息处理