普通话语音情感识别关键技术研究

被引量 : 0次 | 上传用户:COMMA87730030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然人机交互技术是当前计算机应用技术研究的重要方向。语音识别是实现人机交互的重要途径,而语音的情感识别对于实现人机的自然交互更是至关重要。近年来随着心理学、生理学、神经科学和计算机技术及与之相关的模式识别技术的发展,情感计算,特别是语音的情感识别研究,作为计算机科学的一个重要领域在理论和应用上都取得了长足进步。在情感的定义与分类、情感关联的声学特征及相关的分类模型研究上提出了不同的技术和方法,发展了多个语种的情感识别研究,初步建立起语音情感识别的框架体系。但随着人们对语音情感识别的要求越来越高,各种情感识别方面的应用需求提上日程,目前现有的技术与方法已经不能满足需求,特别是汉语普通话语音情感识别的研究相对较少,这就需要我们加快工作步伐,填补这方面的空白。 普通话语音的情感识别技术目前主要面临四大关键技术问题:普通话语音情感语料库问题,亟待建立一个在数量、质量、管理和多样性等方面满足研究要求的普通话情感语音库;情感的声学关联特征问题,寻求一组抗干扰能力强,与情感状态紧密相关的声学特征向量;小样本问题,减少由于说话人和文本差异带来的对情感声学特征的干扰,减小情感特征的类内距离,提高情感识别率;特征向量的高维问题,经过特征选择或降维,选出最具有情感区别力的声学特征,提高分类器泛化能力。 本文以下一代自然人机交互为应用背景,系统分析研究了语音情感识别,特别是普通话语音情感识别的特点及存在的问题;在建立一个扩展性与应用能力良好的普通话情感语音数据库基础上,提出以特征选择、相对特征和情感焦点为核心的新的语音情感识别技术。本文的主要研究内容概括如下: (1)普通话情感语音数据库。由于普通话情感语音研究刚刚起步,有关建立普通话情感语音数据库的技术、经验和方法都较少。为了研究的需要,本文建立了一个普通话情感语音数据库,用录音法和剪辑法共采集1376句情感语音,分愤怒、害怕、高兴、中性和悲伤5个情感类别。数据库还存储了各情感语音的基频、能量、时长和共振峰等韵律学及音质相关的声学特征。 (2)声学特征分析与选择。情感的声学关联特征是语音情感识别的关键之一。本文在普通话情感语音数据库的基础上,分析韵律学特征和共振峰特征在不同情感状态下的静态规律,以及在情感状态转变时的动态规律。同时,进行特征选择和大规模的统计实验,确定了特征向量在情感识别领域各种情况下的最优配置。 (3)模式分类器研究。在对现有语音情感识别领域常用分类器进行分析的基础上,本文选择神经网络为主要分类器,详细探讨了它的原理、结构,及其在普
其他文献
新世纪知识分子题材小说与上世纪末的知识分子小说一脉相承,但实际上它们之间有不应被忽略而往往被忽略的区别。上世纪末小说中的知识分子在突如其来的社会转型面前,疑惑茫然,摇
近年来,多级孔TS-1分子筛的合成引起了科学工作者的极大兴趣,本综述对多级孔TS-1分子筛的合成方法进行简单介绍,对不同合成方法的优劣势进行比较分析并对其未来发展进行展望
合成孔径雷达是一种新型的高分辨力雷达体制,具有全天候、全天时、远距离、高分辨力成像的工作能力,在军事和国民经济的许多领域有着重要的应用。在研制合成孔径雷达过程中,
研究低温胁迫下不同浓度ALA(5-氨基乙酰丙酸)对“江蔬1号”丝瓜幼苗生理及酶活性的缓解效应。试验结果表明,随着ALA浓度的增加,丝瓜幼苗干鲜重逐渐增加,且均显著高于对照;随
2007年4月2日美国第二大次级抵押贷款公司——新世纪金融公司向法院申请破产保护,美国次贷危机爆发,继而引发了全球的金融危机。中国作为经济全球化中越来越重要的一部分,也
精准农业作为一种经营现代农业生产过程的技术体系,是我国现代农业的发展方向,对提高农作物产量、减少资源消耗、保证农产品质量和减轻环境污染具有重要作用,是实现我国农业
有创机械通气是治疗各种重症呼吸衰竭的重要手段,经口气管插管仍是目前建立人工气道的主要方法之一.气管导管位置的准确与否直接影响着通气效果、病人安危,我院 ICU自 1997~ 2
采用三维8节点非协调单元,建立了成组叶片振动特性计算的三维有限元模型.该模型考虑到成组叶片位移约束的周期对称性,引入了斜边界条件和斜坐标系统来处理成组或整圈叶片的约
随着我国城市经济迅猛发展,城市化进程快速推进,使得城市人口集中,交通量持续大幅度增加,直接导致交通需求与道路交通设施之间的尖锐矛盾。城市公共交通成为解决城市交通供需矛盾
历史建筑遗产的研究、保护不仅应当关注建筑单体、历史街区等物质文化遗产实体,同时还应当关注历史建筑遗产周边与其相互影响的非物质文化遗产。将物质与非物质两方面内容有机