论文部分内容阅读
自然人机交互技术是当前计算机应用技术研究的重要方向。语音识别是实现人机交互的重要途径,而语音的情感识别对于实现人机的自然交互更是至关重要。近年来随着心理学、生理学、神经科学和计算机技术及与之相关的模式识别技术的发展,情感计算,特别是语音的情感识别研究,作为计算机科学的一个重要领域在理论和应用上都取得了长足进步。在情感的定义与分类、情感关联的声学特征及相关的分类模型研究上提出了不同的技术和方法,发展了多个语种的情感识别研究,初步建立起语音情感识别的框架体系。但随着人们对语音情感识别的要求越来越高,各种情感识别方面的应用需求提上日程,目前现有的技术与方法已经不能满足需求,特别是汉语普通话语音情感识别的研究相对较少,这就需要我们加快工作步伐,填补这方面的空白。 普通话语音的情感识别技术目前主要面临四大关键技术问题:普通话语音情感语料库问题,亟待建立一个在数量、质量、管理和多样性等方面满足研究要求的普通话情感语音库;情感的声学关联特征问题,寻求一组抗干扰能力强,与情感状态紧密相关的声学特征向量;小样本问题,减少由于说话人和文本差异带来的对情感声学特征的干扰,减小情感特征的类内距离,提高情感识别率;特征向量的高维问题,经过特征选择或降维,选出最具有情感区别力的声学特征,提高分类器泛化能力。 本文以下一代自然人机交互为应用背景,系统分析研究了语音情感识别,特别是普通话语音情感识别的特点及存在的问题;在建立一个扩展性与应用能力良好的普通话情感语音数据库基础上,提出以特征选择、相对特征和情感焦点为核心的新的语音情感识别技术。本文的主要研究内容概括如下: (1)普通话情感语音数据库。由于普通话情感语音研究刚刚起步,有关建立普通话情感语音数据库的技术、经验和方法都较少。为了研究的需要,本文建立了一个普通话情感语音数据库,用录音法和剪辑法共采集1376句情感语音,分愤怒、害怕、高兴、中性和悲伤5个情感类别。数据库还存储了各情感语音的基频、能量、时长和共振峰等韵律学及音质相关的声学特征。 (2)声学特征分析与选择。情感的声学关联特征是语音情感识别的关键之一。本文在普通话情感语音数据库的基础上,分析韵律学特征和共振峰特征在不同情感状态下的静态规律,以及在情感状态转变时的动态规律。同时,进行特征选择和大规模的统计实验,确定了特征向量在情感识别领域各种情况下的最优配置。 (3)模式分类器研究。在对现有语音情感识别领域常用分类器进行分析的基础上,本文选择神经网络为主要分类器,详细探讨了它的原理、结构,及其在普