基于深度学习的语音情感识别特征融合方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:jiangtianyu1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感识别在人机交互等领域应用前景广阔,使机器有效的理解情感可以极大改善人机交互的体验。情感可以通过多种方式表达,而语音是传达情感最为便捷的途径之一。因此如何从语音信号中正确识别说话人情感,在情感识别领域受到了研究者广泛关注。基于此本文开展语音情感识别技术及其应用研究。本文基于深度学习模型,提出了两种语音情感识别方法,分别是基于注意力机制的非线性特征融合方法和基于多通道二维卷积循环神经网络的方法。基于注意力机制的非线性特征融合方法解决了线性融合无法关注时空特征之间非线性依赖的问题;基于多通道二维卷积循环神经网络的方法,解决了不同情感特征线性组合对情感识别结果的影响;设计开发了交互式语音情感识别系统,并将提出的两种模型分别应用在场景对话分析中以识别多人对话场景下每个说话人的情感变化。具体研究内容如下:(1)提出基于注意力机制的非线性时空特征融合方法,该方法解决了线性时空特征融合无法在细粒度上获取时空特征动态依赖关系的问题。该方法使用基于注意力机制的时间卷积网络学习语音中的空间特征,基于注意力机制的长短时记忆网络学习语音中的时间特征,并利用注意力机制进行非线性时空特征融合。该方法使用了三个注意力机制,其中时间卷积网络和长短时记忆网络中的注意力机制用来关注自身提取的高级特征中包含的情感相关特征,而模型间的注意力机制用来关注时空特征之间的动态依赖关系。实验结果表明,使用基于注意力机制进行非线性时空特征融合相较于线性融合可以获得更好的分类效果。(2)提出多通道二维卷积循环神经网络的方法。该方法将原始的低级手工特征根据特征的类型加以拆分,并将拆分后的结果依次注入到不同的卷积通道,再利用二维通道卷积块获得各个特征的局部信息,然后通过线性层将各个通道的输出转化为同一维度,并对相同维度的输出结果加以拼接。拼接后的输出为双向长短时记忆网络的输入,使用这种方式不仅能考虑到每种特征的独立性,还能考虑到语音情感特征中的全局信息。最后使用注意力机制强调语音信号中与情感相关的部分,忽略其中的静默段。实验结果验证了本文所提方法的有效性。(3)设计开发了交互式语音情感识别系统。该系统可以对多人对话进行情感识别。整体系统基于QT开发,采集到的原始语音信号经过谱减法进行增强,去除环境噪声;利用贝叶斯信息准则获取人声变化显著的时间点进行人声分离;利用端点检测算法去除静默段;利用声纹识别技术区分具体说话人身份;最后使用本文提出的两种情感识方法来识别每个语音片段的情感。此外该系统还支持播放语音、展示时序图和频谱图的附加功能。
其他文献
近年来,计算机和通信技术的快速发展,给不同领域注入了生机。不同的学科和计算机技术相互交叉、共同进步,其产物弥补了学科的空缺地带。网络控制系统是产物中的杰出代表之一,系统不同模块间使用网络来进行通讯,而不再是传统的双绞线,从而避免了连线复杂,难于扩展和维护等缺点。但是它也存在一些不足,如:数据包错序、网络时延和数据丢包等。如果忽略这些问题,势必会给系统性能带来不利的影响。因此越来越多的学者将目光聚焦
近年来,高光谱图像分类逐渐成为了高光谱领域中的研究热点,在国民经济发展和国家安全中都发挥着重要作用。高光谱图像具有维度高、冗余性高、数据量大等特点,对高光谱图像特征提取以提高分类准确度是高光谱图像分类任务中的关键问题,特征质量的好坏直接影响着分类准确度的高低。但是,高光谱图像的同物异谱和同谱异物现象、带标签样本数量少、样本标记成本高,以及巨大的数据量使得高光谱图像的特征提取和分类面临着许多困难和挑
二硫化钼(MoS2)是二维材料家族的典型代表,由于其内部结构与石墨烯相似,不仅保留了石墨烯优良的电、光、机械性能。同时其具有1.2~1.8 e V的可调带隙,并且通过改变厚度可以调控禁带宽度,因此在制备电子学器件(如场效应管、发光二极管、光电探测器)上具有独特的优势。随着科技的高速发展,要在芯片上集成大量元器件,传统硅材料会产生漏电和散热不佳等问题,而二维结构的二硫化钼单层薄膜厚度往往是小于1 n
随着现代信息科学技术的不断发展和计算机硬件水平的不断提高,人工神经网络在多个领域得到越来越广泛的应用。人工神经网络由许多非线性计算单元组成,可以通过训练获得处理复杂信息的能力。基于梯度下降算法进行训练的人工神经网络在实际应用中十分广泛,其原理是基于整数阶微积分理论对损失函数进行优化,从而改进神经网络的权值和阈值,使得神经网络在训练过程中不断调整,最终达到训练的平衡点。本文将基于分数阶微积分理论的梯
在实际工程应用中,考虑到产品使用便捷与外形美观等原因,工业产品会尽量减少非必要零部件。相对而言,在信息监测与反馈环节会较为薄弱,只会留下部分必要传感器。因此,对于这类工业产品,仅依靠自身携带的传感器很难得到精确且充足的采样数据,往往只能得到稀疏甚至非均匀的采样数据。若想要对设备进一步开发,首要问题是需要一个较为准确的数学模型,为研究提供基础。考虑到这一较为广泛的工程现象,对于此类仅能得到非均匀稀疏
调节阀作为工业控制中的执行器,是过程控制的关键环节,并且其调控性能高度依赖阀门定位器的硬件特性和控制算法。近年来,压电式智能定位器因其低碳和智能特性逐渐取代喷嘴挡板式定位器,成为一种更加有应用前景的阀门定位器。但国内在该技术领域起步较晚,和进口产品相比仍存在较大差距,尤其是在系统性能分析及控制算法方面仍有改进余地。本文在参考国内外相关文献资料和团队前期工作基础之上,开展如下研究工作:(1)对气动执
近年来,新发展理念推动工业生产制造向高质量发展行进,中国的制造业从粗犷式的增长形式逐步开始转型。永磁伺服系统凭借精度好,运行可靠,结构简单等优点,成为工业控制中的中流砥柱。针对水晶制造业,在切割打磨水晶时需要响应快速且稳定的永磁伺服系统,电流控制作为系统最内环的控制,其电流采样精度及响应时间与整个永磁伺服系统的性能直接挂钩。本文先简要介绍了永磁同步电机的基本结构,并依据坐标变换原理在不同坐标系下建
随着无线通信技术的不断进步,每一代无线通信系统都发生着跨越式的发展。在5G通信系统中,提出了一系列的技术以提升无线网络容量以及通信服务质量。为了提升单位面积频谱效率,下一代无线通信系统将在部分热点区域采用密集部署接入点(AP:Access Point)的方式来形成超密集无线网络(UDN:Ultra-Dense Networks)。通过密集部署的AP,实现了AP围绕用户、以用户为中心。一方面减小了用
近年来,为切实治理水环境安全问题和促进水环境质量的不断改善,全国各流域生态环境监测站点扎实开展水质加密监测,从而保障环保部门及时掌握水质动态情况以及进行水质预警决策分析,因此如何准确地对流域水质数据进行监测和预警已成为当下研究热点之一。然而由于大多数水质传感器通常会受日常维护、录入数据库错误和传感器测量误差等因素影响,因此采集的水质数据会出现两种类型的数据错误:噪声数据和缺失数据,而现有的数据清洗
近年来,以冷、热、电多能流型区域综合能源系统为代表的多能联供技术高速发展,对多种能源的优化调度成为研究热点。本论文利用(火用)效率作为评估指标,基于(火用)流建立冷、热、电多能流系统模型,求解系统最节能-经济的优化调度策略。具体研究内容如下:(1)建立了包含冷、热、电的园区级多能流系统模型。本系统的能源输入包括天然气供热发电和分布式可再生能源风力发电系统,负载为冷、热、电负载。在多能流系统中引入先