论文部分内容阅读
随着电子信息技术的飞速发展,人们对人机交互体验的需求持续地增加,机器情感智能识别作为人机交互中的重要组成部分,其需求更是与日俱增。在语音情感技术的应用过程里面,总是伴随着各种环境噪声的影响。提取并选择出有效表征情感并且具有高的噪声鲁棒性的语音情感特征以及构建噪声鲁棒性的语音情感分类器,是本文的重点研究内容。本文简要叙述了噪声环境下语音情感识别技术方面的背景,并对噪声环境下语音情感识别的研究现状进行了概述。针对噪声条件下的语音情感识别任务,在最优小波包基的构建的基础上,利用短时帧分析与长时帧分析相结合的方法,并且利用具有较好噪声鲁棒性的子带频谱质心参数进行加权,本文提出了一种基于长时帧噪声补偿的小波包倒谱系数特征(Long time frame Analysis Weighted Wavelet Packet Cepstral Coefficient,LW-WPCC)提取算法。基于语音片段轨迹模型,给出了一种用于计算语音特征携带情感信息的量化准则函数,从而对高维的LW-WPCC特征进行特征选择。针对语音情感识别中的测试样本中普遍存在的噪声问题,通过计算重要性权重,对支持向量机(Support Vector Mach ion,SVM)分类器等效优化问题中的松弛变量进行加权,改进了传统的支持向量机的噪声鲁棒性。并通过混噪语音信号在不同信噪比水平下的情感识别实验,对本文中提取的LW-WPCC特征在噪声情况下语音情感识别能力进行分析评估,相比于传统的语音情感特征和支持向量机,改善后的情感识别方法拥有更出色的噪声鲁棒性和语音情感识别识别准确率。最后,给出了一种基于DBN网络的特征融合算法,将传统声学特征中的韵律特征,音质特征与WPCC以及LW-WPCC特征融合,通过对比实验对基于DBN网络的特征融合算法提取的融合特征在噪声情况下进行语音情感识别能力的分析评估。不同信噪比的混噪语音信号情感识别结果显示,改进的基于长时帧噪声补偿的小波包倒谱系数特征具有更好的噪声鲁棒性以及情感识别准确率。