基于深度学习的多模态情感识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a273582760
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能的飞速发展导致人们从人际互动转向更多的人机互动,并对情感交互技术提出了更高的要求,情感是人类交流的具体体现,而情感识别的研究热度也逐渐增大,单模态情感识别往往存在信息不完整、干扰性强、识别率低等缺点,近期以来,广大研究者对于多模态情感识别给予高度的重视,并在语音、视频、文本和生理信号情感识别领域开展了大量的研究工作,多模态情感识别通过融合不同模态之间的信息,来进行互相补充,从而提高最终识别率。而深度学习神经网络发展至今已经在情感识别方向上有一定的应用,我们可以通过改变神经网络来优化情感特征提取的准确性。本课题主要研究内容是对语音、视频和文本三种模态信息基于深度学习神经网络进行多模态情感特征提取并搭建情感识别模型。本文研究了分别适用于语音、视频和文本三种模态的有效特征提取方法,对于语音信息输入,本文使用长短时记忆神经网络(LSTM)进行语音特征提取,由于语音信号的每一时刻的输出与前后时刻均有联系,该网络能够使语音信号更好地利用前后时刻的信息;对于视频信息的输入,本文使用一种密集连接的卷积神经网络(Dense Net)来提取图像特征,脱离了加深网络层数(Res Net)和加宽网络结构(Inception)来提升网络性能的定式思维,从特征的视角综合性分析,采用特征重用与旁路(Bypass)设置的方式,能够有效降低网络中的参数量,同时将梯度消失问题有效解决;对于文本信号的情感特征提取,采用的是LSTM神经网络,可以有效地提取富含情感的前后语义和语序信息。为了使三种模态的信息有效融合,本课题深层剖析了多模态情感识别的融合方式,其中,基于特征层的融合方式可以有效地利用各个模态之间的信息,但直接级联的特征层所采用的融合方式,仅仅是将每种模态的输出情感特征向量进行了拼接,本文针对研究需求将注意力机制有效引入到特征层融合的过程中,该机制通过学习来获得一个符合数据集分布的合理权重,并在最后情感识别时在特征融合层进行权重加和,进而确保了多模态情感识别结果的精确度及合理性。本文设计了单模态、双模态和多模态的对比试验,并针对IEMOCAP数据集中的十种情感分类进行了五分类输出、四分类输出、三分类输出、二分类输出。并分析讨论实验结果,我们在五分类输出的情况下,双模态情感识别比单模态情感识别的准确率提高了6.2%,相对于双模态情感识别而言,语音视频和文本的三种模态情感识别的准确率提高了8.98%。在其他三种分类输出模式下也符合该规律。通过设计实验从而验证了本课题的基于深度学习的多模态情感识别模型的准确性和有效性。
其他文献
中国制造在发展模式、培养人才和价值链延伸方面有无解决方案  2012年,中国制造业内外交困。一方面,人力成本及生产资料价格上涨,另一方面,部分欧美企业的回迁动作愈演愈烈,如美国福特汽车计划将1.2万个工作岗位从墨西哥和中国迁回。  在全球产业转移新一轮大洗牌中,发达国家力图抢占新一轮科技和产业变革的制高点。面对咄咄逼人的国际竞争者,中国制造业应该如何应对?在发展模式、培养人才和价值链延伸方面有无解
在复杂繁重的行政任务需求下,行政机关积极更迭执法理念、创新执法方式,并更加注重提高工作效率、促进公民参与,行政允诺即是行政机关在政府职能转变背景下应运而生的柔性执法方式,在丰富行政执法、鼓励公众参与、提升行政效率等方面发挥着不可忽视的作用。囿于法律规定的缺位和理论研究的不完善,行政允诺在其运行实践中的问题与争议相继涌现,行政允诺的司法审查也面临诸多挑战。然制度与法律的成熟需要时间的锤炼,当制度与法
“三红汤”组成:红枣七枚,红豆50g,花生红衣适量。三味共同熬汤,连汤共食之。适用于一般性贫血或缺铁性贫血。  红枣味甘、性平,能补脾益气,改善血虚萎黄,红枣中的多糖成分能促进造血机能。  红豆性平,味甘酸,可利尿、消肿、健脾。红豆含多种维生素和微量元素,尤其是含铁质、维生素B12,有补血和促进血液循环功能。女性经期失血多出现头晕眼花、面容苍白等,常喝加红糖的热红豆汤,能补血且改善贫血症状。  花
6月5日,世界环境日,第七届企业社会责任国际论坛暨2011金蜜蜂企业社会责任·中国榜发布典礼在北京隆重举行,来自政府部门、企业界代表及专家学者等400余人参加了论坛。这次
审题要点分析  这一次的习作,我们需要写生活中各种各样的事情。虽然题目里说:“有些是亲身经历的,有些是我们看到的,还有些是我们听说的。”但我还是建议大家写“亲身经历的”,因为只有“亲身经历”,印象才会比较深刻。  怎么算是印象深刻呢?  一是感情强烈。某一次事情,给你强烈的情绪冲击,大喜大怒,至哀至乐,可能至今还是余波汹涌。如自信满满的班级跳长绳比赛,却连出意外,先是常用的绳子不见了,接着是主力选
海量数据问题一直是地理信息领域的"阿基里斯之踵"大数据(Big Data)是将规模庞大、结构复杂、动态演变的数据进行采集、筛选、管理、搜索、分析、挖掘与表达的技术统称,是连通信息世界和知识世界的桥梁,也是数据科学(Data Science)的重要研究方向。
数学教学比较枯燥,学生对数学学习产生兴趣非常重要。教师平铺直叙地讲解,往往使学生兴味索然。因此,教师在数学教学中采用适当的方法,使学生在心里产生疑问,引发好奇心,使之
<正>游戏是幼儿园活动当中最为关键的一环。一个公认的事实是,自主性能力的培养对于幼儿来说是十分重要的,这种能力将直接影响孩子们在后续的小学教育中适应情况。因此探究自
会议
目的:观察正常成人和脑卒中偏瘫患者的实际坐位站起活动,研究两者在活动时下肢主要肌肉肌力的差异,以及坐位站起(SirrS)计时和肌力的关系。方法:让经筛选的29例脑卒中偏瘫患