论文部分内容阅读
说话人识别是通过对说话人的个性特征进行分析和提取来达到确认或辨别说话人身份的目的。由于其具备数据采集设备的非接触性、简易性,价格比较低廉,易被用户接受等优点,是当前语音信号处理研究领域的研究热点之一,具有广泛的市场应用前景。本文在对现有说话人识别技术进行分析的基础上,重点研究分析了非线性频谱变换对说话人识别的影响,然后提出一种面向说话人识别的新的非线性频谱变换方法,讨论了其有效性及不足,并提出了进一步的研究方向。特征的选择与提取和模型的选取是影响说话人识别性能好坏的关键因素。目前受到广泛应用的特征参数是反映声道响应特性的倒谱系数,特别是基于人耳听觉特性的MFCC特征参数。虽然已经取得了较高的识别率,但是它反映的是语音特征,而不着重反映说话人个性特征。本文首先介绍分析了常用的LPC、LPCC和MFCC特征参数的说话人识别系统的性能。然后介绍了Mel尺度、Bark尺度及ERB尺度这三种非线性频谱变换,分析在不同的训练数据、不同测试时间的条件下,三种非线性频谱变换对应的说话人识别系统的性能。根据语音信号不同频带携带的个性特征信息量的不同,分析研究各个频带对说话人识别的贡献,得出每个频带的说话人相对误识率,提升对说话人识别贡献大的频带,而降低对说话人识别贡献小的频带。首先加权改进了Bark非线性频谱变换,将其应用于说话人识别系统,使得系统的性能得到提高。进而提出一种面向说话人识别的非线性频谱变换的方法以及特征提取算法。实验表明,与传统的Mel、Bark和ERB谱等非线性频谱变换相比,所提出的非线性频谱变换方法可以有效突出语音中的说话人个性特征,提高特征空间中类别的可分性。在同样的测试条件下,平均误识率降低至0.668%。在较长测试时间条件下,误识率甚至可以达到0,有效地提高了说话人识别系统的性能。