论文部分内容阅读
说话人识别技术是根据语音波形中反映说话人生理特征差异和行为习惯差异的语音参数能够自动鉴别说话人是谁的一项技术,其广泛的应用前景正受到越来越多人的重视。本文主要是基于美尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)和矢量量化的与文本无关说话人识别技术的研究,采用矢量量化和自适应蚁群算法混合的方法,参数利用改进窗函数的Bark子波的美尔频率倒谱系数。首先,在MFCC特征提取的预处理阶段对窗函数进行改进,用改进的Lanczos窗代替汉明窗,在确定主瓣的宽度基本一致的情况下,使旁瓣能更好的得到抑制,并引入与人耳听觉系统更为适应的Bark子波变换,其基函数满足时间-感知频率上的最佳不确定性,分析尺度的伸缩则按照“临界带(Critical Band)”的中心频率来变化,将其应用于MFCC特征提取过程中,能提高语音在噪声环境下的鲁棒性。然后,对矢量量化模式识别方法进行改进,针对LBG算法极易陷入局部最优解的可能性和依赖初始码本的选择问题,利用蚁群算法的分布式并行机制,将蚁群算法与LBG算法进行混合交替,在提高其全局搜索能力的同时,通过LBG算法加快收敛速度。为了防止蚁群算法也陷入局部最优解的可能,采取了确定性选择和随机性选择相结合的选择策略,在搜索过程中动态调整状态转移概率的方法,从一定程度上防止了所得的结果是局部最优解。最后,一种基于标准差描述的加权欧式距离测度用于匹配判决。通过实验可以验证,改进后的特征提取算法以及混合蚁群算法的矢量量化识别方法,与传统的基准算法相比较,识别率和鲁棒性均得到提高,且随着训练语音长度的增加,识别效果更好。因此在实际应用中,需要根据具体的环境进行调整。