论文部分内容阅读
随着计算机技术的不断提高以及社会信息化程度的逐渐深入,说话人识别技术的应用场景也越来越多,并且用户对说话人识别系统的友好性、精确性和鲁棒性的期望也逐渐提高。在纯净语音环境下,说话人识别技术发展的已相当成熟了,但是在实际应用场景中,说话人识别系统的准确性受到许多环境因素的影响,例如由于环境噪声导致采集的语音受污染影响识别率,再比如说话人由于某种原因导致变声影响识别率,常见的就是身体健康状况的变化(例如感冒),上述各种因素都是导致目前说话人识别系统鲁棒性不强的主要原因。在语音识别鲁棒性技术研究中,第一种情况环境噪声的影响,目前已经得到研究人员广泛关注,采取各种措施降低噪声影响提高识别率,但对于后者即说话人本身变声的研究还十分缺乏,本文侧重研究变声环境下如何提高说话人识别系统鲁棒性的技术。变声的情况也有许多,有故意的(如犯罪分子变声掩盖身份),更多的是因为说话人身体健康原因导致的,本文主要研究后者,侧重针对常见的感冒导致的变声情景。我们将说话人感冒时发出的语音称为感冒语音,感冒改变了说话人个性特征的分布,导致感冒测试语音与正常语音训练得到的说话人模型不匹配,从而使得系统的识别准确性显著下降。本论文的主要研究工作和创新如下:针对仅有正常语音来训练说话人模型的情况,本文分析说话人感冒引起发声系统的变化、鼻音的特点以及感冒语音与正常语音的差异,重点研究了如何补偿感冒造成的语音变化,改善说话人识别系统的性能。具体工作包括:(1)分析了说话人感冒引发鼻腔通道的变化以及对其调制作用的影响。研究了鼻音的频谱特点以及对比感冒语音与正常语音的频谱图,采用了与正常语音不同的预加重滤波器来处理感冒语音,即用低频衰减幅度更大,高频提升效果更好的预加重滤波器来处理感冒语音。在语音实验室录制的语料基础上进行了仿真实验,经过大量的实验得到当训练语音使用系数为0.91的经典预加重滤波器来处理,而感冒语音使用特殊预加重滤波器(1??0.98,??0.8)处理,系统的识别效果达最佳。在高斯成分取64时,系统对感冒语音的识别率与正常语音的识别率相一致。(2)提出了将线性预测系数与梅尔倒谱系数进行得分融合的说话人辨认系统,利用特征LPC和MFCC得分的互补性,将这两者的得分进行线性加权融合。实验表明,LPC和MFCC得分融合系统优于单一特征系统,它可以显著提高系统对感冒语音的识别率。仿真结果表明了当基于MFCC系统得分的加权系数为0.7,基于LPC系统的加权系数为0.3时,系统识别率达最高。(3)针对智能移动终端普及,许多用户通过移动终端接入网络需要进行身份认证的场景,为降低传输和处理的数据量,提出一种基于压缩感知的感冒语音说话人识别系统,在提取感冒语音信号的CS-MFCC特征参数前首先进行语音检测。通过行阶梯观测矩阵进行压缩采样,实质上是对相邻采样点进行叠加,浊音信号具有周期性,合适的压缩比下叠加后的波形几乎不变,清音不具有周期性叠加后波形发生了明显的变化,无声语音也会影响波形的叠加效果,故而提出将无声帧和清音帧剔除后,再用行阶梯矩阵观测采样,得到的观测信号波形更加接近观测前的波形,即在保证说话人识别系统性能的前提下,可以大大降低语音信号的数据量。