变音环境下鲁棒性说话人辨认关键技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:chenjianhao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断提高以及社会信息化程度的逐渐深入,说话人识别技术的应用场景也越来越多,并且用户对说话人识别系统的友好性、精确性和鲁棒性的期望也逐渐提高。在纯净语音环境下,说话人识别技术发展的已相当成熟了,但是在实际应用场景中,说话人识别系统的准确性受到许多环境因素的影响,例如由于环境噪声导致采集的语音受污染影响识别率,再比如说话人由于某种原因导致变声影响识别率,常见的就是身体健康状况的变化(例如感冒),上述各种因素都是导致目前说话人识别系统鲁棒性不强的主要原因。在语音识别鲁棒性技术研究中,第一种情况环境噪声的影响,目前已经得到研究人员广泛关注,采取各种措施降低噪声影响提高识别率,但对于后者即说话人本身变声的研究还十分缺乏,本文侧重研究变声环境下如何提高说话人识别系统鲁棒性的技术。变声的情况也有许多,有故意的(如犯罪分子变声掩盖身份),更多的是因为说话人身体健康原因导致的,本文主要研究后者,侧重针对常见的感冒导致的变声情景。我们将说话人感冒时发出的语音称为感冒语音,感冒改变了说话人个性特征的分布,导致感冒测试语音与正常语音训练得到的说话人模型不匹配,从而使得系统的识别准确性显著下降。本论文的主要研究工作和创新如下:针对仅有正常语音来训练说话人模型的情况,本文分析说话人感冒引起发声系统的变化、鼻音的特点以及感冒语音与正常语音的差异,重点研究了如何补偿感冒造成的语音变化,改善说话人识别系统的性能。具体工作包括:(1)分析了说话人感冒引发鼻腔通道的变化以及对其调制作用的影响。研究了鼻音的频谱特点以及对比感冒语音与正常语音的频谱图,采用了与正常语音不同的预加重滤波器来处理感冒语音,即用低频衰减幅度更大,高频提升效果更好的预加重滤波器来处理感冒语音。在语音实验室录制的语料基础上进行了仿真实验,经过大量的实验得到当训练语音使用系数为0.91的经典预加重滤波器来处理,而感冒语音使用特殊预加重滤波器(1??0.98,??0.8)处理,系统的识别效果达最佳。在高斯成分取64时,系统对感冒语音的识别率与正常语音的识别率相一致。(2)提出了将线性预测系数与梅尔倒谱系数进行得分融合的说话人辨认系统,利用特征LPC和MFCC得分的互补性,将这两者的得分进行线性加权融合。实验表明,LPC和MFCC得分融合系统优于单一特征系统,它可以显著提高系统对感冒语音的识别率。仿真结果表明了当基于MFCC系统得分的加权系数为0.7,基于LPC系统的加权系数为0.3时,系统识别率达最高。(3)针对智能移动终端普及,许多用户通过移动终端接入网络需要进行身份认证的场景,为降低传输和处理的数据量,提出一种基于压缩感知的感冒语音说话人识别系统,在提取感冒语音信号的CS-MFCC特征参数前首先进行语音检测。通过行阶梯观测矩阵进行压缩采样,实质上是对相邻采样点进行叠加,浊音信号具有周期性,合适的压缩比下叠加后的波形几乎不变,清音不具有周期性叠加后波形发生了明显的变化,无声语音也会影响波形的叠加效果,故而提出将无声帧和清音帧剔除后,再用行阶梯矩阵观测采样,得到的观测信号波形更加接近观测前的波形,即在保证说话人识别系统性能的前提下,可以大大降低语音信号的数据量。
其他文献
本文在详细介绍了网络视频监控系统的发展概况,应用现状和地理信息系统(Geographic Information System)在网络视频监控系统中的作用和意义以及提供的功能基础上,以Visual C++6
超宽带(Ultra-Wide Band,UWB)高功率技术在雷达、通信、电子对抗等领域有广泛的应用。高增益的超宽带天线作为超宽带高功率的关键技术之一,具有重要研究意义。经典的超宽带天
PN码(伪随机码)的同步技术是CDMA系统的关键技术之一,包括PN码的捕获和跟踪。PN码同步性能的好坏决定着DS-CDMA系统的成败。本文详细讨论了DS-CDMA系统的PN码捕获与跟踪技术,
随着科技的迅速发展和宽带网络的不断延伸,使用视频点播的用户数量正在以每年30%的速度增长,这使得原有VOD系统的用户负载、服务器安全性和稳定性等各项性能均不能满足日益增
智能交通系统是未来城市交通管理系统发展的必然趋势,运动车辆的检测与跟踪是智能交通系统中的核心内容之一。如何能够正确的检测出运动车辆并能实时准确的跟踪是目前亟待解决
宽带无线城域网(IEEE 802.16)作为下一代宽带无线通信技术的发展方向,与传统的无线接入技术相比具有更高的速率、更大的覆盖范围和更低廉的成本。无线Mesh网络是一种大容量高
智能视频监控中,利用计算机实时定位视频中感兴趣的、显著视觉特征的多个独立目标,精确计算出目标在视频中位置大小、运动速度、表观特征等状态信息,为目标分类识别、行为理
随着因特网的越来越广泛的应用,如何对因特网进行有序管理,已经引起了人们的高度重视。而网络流量监测是网络管理的一个重要组成部分,网络流量数据为网络的运行和维护提供了