【摘 要】
:
语音是人们传递情感和信息交流最便捷高效的方式。语音情感识别是依据给定的语音信号,自动地识别分析出语音中所包含情感的技术。语音情感识别在医疗、教育、刑侦等领域应用
论文部分内容阅读
语音是人们传递情感和信息交流最便捷高效的方式。语音情感识别是依据给定的语音信号,自动地识别分析出语音中所包含情感的技术。语音情感识别在医疗、教育、刑侦等领域应用广泛,在人机交互中担任着至关重要的角色。从传统声学特征的研究,到近年来深度学习技术应用于语音情感识别中,研究者尝试了各种不同的语音情感识别方法,取得了不错的研究进展。但由于语音数据集中存在样本少、数据类别不平衡等问题;基于传统声学特征的方法中存在提取特征时信息丢失、特征包含的情感信息较少等问题,因此传统声学特征也被称为低级描述特征(Low-Level Descriptors,LLDs);基于语谱图的方法中存在如何提取情感特征、如何处理无关信息的影响等问题,语音情感识别仍面临巨大的挑战。基于以上研究难点和重点,本文研究内容主要包含以下几部分:1.针对基于传统声学特征方法中存在的问题,本文提出了基于LLDs特征和深度学习的语音情感识别方法。首先,在大量声学特征中选择和情感较为相关的语音特征,并融合统计学特征(High-level Statistical Features,HSF)组成情感特征集,降低情感特征的维度,进行句级的特征分析。然后,采用卷积神经网络(Convolutional Neural Network,CNN)从特征集中进一步提取更深层次的情感特征。CNN能够有效地分析特征之间的关联性,并保留有用的信息。最后,用极限学习机(Extreme Learning Machine,ELM)模型对提取的特征进行分类,ELM模型能解决数据样本少时分类效果差的问题。本文对提出的方法进行多组对比实验,验证了基于CNN和ELM模型方法进行语音情感识别的有效性,并分析了LLDs和HSF特征组合的效果,同时比较了支持向量机(Support Vector Machine,SVM)和ELM分类器的性能。2.针对基于语谱图方法中存在的问题,本文提出了基于语谱图和深度学习的语音情感识别方法。首先,提出了数据增强和平衡数据集等语音数据预处理的改进方法,减小语音数据样本少、类别不平衡的影响。其次,采用三通道的语谱图作为深度卷积神经网络(Deep Convolutional Neural Network,DCNN)模型的输入。三通道的语谱图能较好的表示语音数据,保留和情感相关的特征。然后,采用预训练DCNN模型从语谱图中提取情感特征,能较好地解决数据样本少,网络训练拟合差的问题。之后,将语音特征输入到双向长短时记忆神经网络(BiLong Short-Term Memory,BLSTM)中进一步提取时间维度上的情感信息。针对情感无关特征的影响问题,在DCNN和BLSTM模型后引入注意力模型(Attention model),凸显和情感相关的特征,减小不相关信息的影响。最后,采用深度神经网络(Deep Neural Network,DNN)模型对情感特征进行分类,取得了较好的分类结果,验证了所提出基于语谱图和深度学习方法的有效性。本文主要从基于传统LLDs特征和语谱图表示特征出发,提出了两种语音情感识别方法。在柏林语音情感数据库(EMO-DB)和南加州大学语音情感数据库(IEMOCAP)中进行大量实验,取得了不错的实验结果,最高分别获得了87.86%和68.50%的未加权准确率,验证了本文所提出方法的有效性。
其他文献
无人机(unmanned aerial vehicle)是一种可重复使用的,机上无人类操作员的航空飞行器。随着无人机的各项技术逐渐成熟以及对多无人机系统的复杂通信需求的增加,学者提出了飞行自组网的概念。飞行自组网的基本思路是通过自动连接建立一个通信网络,无人机节点之间能够互相通信、交换数据。同时不完全依赖地面基站和卫星等基本通信设施。随着飞行自组网的应用在军用和民用领域的逐渐发展,对飞行自组网的接
接口电路是连接传感器与运算电路的过渡电路。为了获得和转化测量的湿度值,使之成为有用的电信号,就必须对传感器的接口电路进行研究。全数字式接口电路原理简单结构不复杂、静态电流较小功耗较低、集成度较高节省版图面积,在各类半导体产品中有着广泛的运用。本文使用Cadence Virtuoso 617软件,设计了一种基于tsmc 0.18μm标准CMOS工艺的电容式接口电路,根据国内外发展现状提出本文的设计指
随着移动互联网以及5G网络技术的发展,电子设备接入互联网的门槛逐渐降低,大量的设备得以接入计算机网络。然而随着大量设备产生的大量数据使得作为数据汇点的中心网络成为整
随着柔性电子器件在医疗、航空、卫星和国防等领域的广泛应用,单层二硫化钼因其极低的面外刚度和可调控的带隙特征可以完全克服制约柔性电子器件发展的两大瓶颈,被誉为新世纪引发纳智能电子领域革命性突破的重要材料。目前,单层二硫化钼的力学的研究已经取得一定成果,但是对二硫化钼失稳力学的研究相当有限,这极大的制约了二硫化钼在柔性电子器件领域的应用。本文基于理论分析和分子动力学模拟对单层二硫化钼失稳力学性质进行系
众创空间已经成为国家和地方政府工作的着力点,在国家政策的支持下,全国各地的众创空间如雨后春笋般的发展起来。但是众创空间数量在激增的同时,也出现了只求数量不求质量的
下肢外骨骼机器人作为目前热门研究技术之一,在增强人体运动能力、辅助下肢疾病患者康复训练等方面起着重要的作用。而如何合理地对下肢外骨骼运动轨迹实现规划与控制是解决
在大数据时代,单纯地从大量图像资源中搜索所需的图像已经无法满足人们的生活需求,如何根据人类的语言描述创造出适应特定需求的图像受到了广泛的关注。近年来,随着生成对抗网络的快速发展,文本生成图像任务取得了重大突破。然而,文本解析的困难以及图像和文本之间存在的语义鸿沟,导致文本生成图像仍然难以得到令人满意的效果。在文本生成图像任务中存在两个主要挑战,一个是视觉真实性,根据有限的文本描述很难生成具有丰富细
近年来,随着大数据技术和计算能力的不断提升,人工智能技术发展迅速,人工智能类产品也迎来了广泛的关注和研究,其中结合自然语言处理技术的智能问答机器人系统的需求也随之增多。目前如微软小冰等基于开放领域的聊天机器人已经逐渐投入市场,解决了部分情感助手的需求。然而,针对特定领域的问答系统需要专业人员的参与,问答回复准确率要求更高,虽然有着日益迫切的需求但是离真正的使用还有一段距离。多轮交互问答机器人能够根
金属铍因其优异的性能在核工业、武器系统、航空航天工业等领域都有着十分重要的应用。然而由于缺乏对形变铍组织软化行为研究,目前我国关于金属铍的压力成型技术发展较为落后。静态再结晶是软化冷变形金属,重新获得无畸变等轴晶的重要手段。现代再结晶理论指出,再结晶过程中各参数的控制将对金属再结晶行为及组织调控有着深刻的影响。本文以热压金属铍为研究对象,探究低温(低于450℃)形变铍退火过程中的静态再结晶行为,揭
东周上承三代下启秦汉,是中国历史从古代到中世纪的社会转型期。这段历史自来倍受重视,研究成绩硕果累累。但从社会转型的视角观察,仍有不少未发之义值得探讨。东周社会转型