面向多模态情感分析的类量子交互模型

来源 :天津大学 | 被引量 : 0次 | 上传用户:cerfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的迅速发展,越来越多的用户习惯于通过文本、图像、视频等多种媒体形式分享自己观点,参与其他用户的互动交流。挖掘并捕捉其中蕴含的主观性信息对于舆情分析、市场营销与投资预测等具有重大意义。因此,多模态情感分析已经成为人工智能领域的核心研究课题之一,引起学术界和工业界的共同关注。然而,研究界对交互特性的理解尚未明确与深入,建模交互的研究方法相对简单,以经典概率理论为基础的传统方法在交互建模方面还存在一些局限,如何准确且全面地建模多模态文档中的复杂交互成为困扰该领域的关键性难题。为了解决这一难题,本文从社交平台上的主观性文档(文本与图像)出发,分别对多模态情感分析中位于不同层面的三种典型交互子问题展开了研究,建立起一套完整的多模态类量子交互建模理论体系,并发展出相应的类量子多模态交互模型。本文主要的内容和创新点如下:
  1.模态内的词项交互问题,即单词之间、像素之间的相互关联与交互。
  针对该问题,本文提出一种多模态类量子语义表示模型与一种类量子情感表示模型。对于文本,将每个单词视作量子概率空间中的基本事件,表示为投影算符(projector)。而组合词或情感短语被视作量子事件的叠加态,形式化为投影算符的交互组合。通过这种方式,文档形式化为投影算符的序列,运用最大似然估计方法训练出密度矩阵,最终表示该文档。类似地,对于图像,根据像素点提取尺度不变特征变换(SIFT)特征,构建视觉单词词典,将每个视觉单词视作量子基本事件,表示为投影算符,统一封装到图像对应的密度矩阵。相比于向量表示,密度矩阵能够编码(视觉)单词的概率分布,计算(视觉)单词的二阶相关性,捕捉词项间的交互。
  2.模态间的决策交互问题,即文本决策结果与图像决策结果之间的干涉。
  针对该问题,本文提出一种量子干涉理论启发的多模态决策融合方法。对于多模态情感分析任务,不同的模态纠缠在一起共同表达作者的情感,它们会同时影响用户对情感的决策判断,表现为决策融合过程中的交互干涉现象。本文将多模态情感分析类比为量子双缝干涉过程,将用户的认知状态视作文本情感与图像情感的叠加态,采用波函数形式化描述,从而推导出新颖的多模态决策融合方法。该方法通过引入干涉项去建模多模态之间的决策关联。
  3.模态外的话语上下文交互问题,即文本会话中话语上下文之间的影响与交互。
  针对该问题,本文首先建立并开源一个高质量的文本会话情感数据集,用以促进交互式情感分析领域的发展。其次,本文提出一个上下文交互式长短期记忆网络。主要特点是在文本会话情感分析任务中,阐述交互动力与聊天会话的关联性,定义了上下文交互的多维特性,即理解、可信度和影响。本文修改标准长短期记忆网络结构,将这三种特性融入其中,使其显式地学习文本会话情感分析中的上下文交互动力。最后,本文提出一个类量子上下文情感交互网络模型。该模型通过一个基于密度矩阵的卷积神经网络提取文本特征,作为其输入。随之提出一个量子测量理论启发的强弱影响力模型,捕捉话语流之间的强、弱交互,并将他们融入到每个长短期记忆网络输出门中,获得最终的情感预测结果。
  4.多模态会话聊天中的全面交互问题,包含以上三种典型子交互问题。
  针对该问题,本文糅合以上三种理论模型,建立起一套完整的多模态类量子交互建模理论体系,发展出相应的类量子多模态交互网络框架。具体而言,该框架以多模态类量子表示模型提取文本与图像特征,以量子测量理论启发的强弱影响力模型捕捉话语间上下文强、弱交互,以量子干涉启发的多模态决策融合方法合并文本与图像决策结果,获得最终情感识别结果。该框架能够同时建模模态内(词项)交互、模态间(决策)交互与模态外(话语上下文)交互。
  综上所述,本文的研究成果有助于加深对复杂交互的认识,为多模态交互式情感分析领域的发展提供新鲜的理论,具有重要的科研意义与社会价值。
其他文献
随着对包括高效调制技术在内的复杂无线移动应用的需求不断增加,对支持这些应用的大带宽的需求也急剧上升。然而,带宽资源是有限的。当前联邦通信委员会频谱分配政策仅允许许可用户访问频谱。但事实证明,当前许可频谱在时间和频率上的使用效率低下。因此,提出了无执照的二级用户概念,他们临时从现有的一级许可用户处租借频谱来提高频谱利用率,即从“频谱池”中租借频率。该项技术是基于动态频谱接入的(DSA),被称为认知无
随着社会信息化程度的不断深化使得对于通信网络的吞吐量及、时延及连接数等性能要求越来越高,这也驱动着通信基础设施及用户设备的持续更新,通信技术也日新月异。其中,大规模多输入多输出(Massive MIMO: Multiple Input Multiple Output)系统是第五代(5G)蜂窝通信系统关键技术之一。大规模MIMO可以通过提供大的空间复用和分集增益来提高性能,被认为是未来通信系统提高数
深度学习是基于人工神经网络的机器学习方法的一种。深度学习具有不同的架构,可应用于计算机视觉,语音识别,自然语言处理等领域。首先,我们研究了基于人工神经网络的深度学习模型。另一方面,神经网络是在输入和输出层之间具有多个层的深度神经网络。这些深度神经网络用于计算机视觉。深度学习具有很强的学习能力,可以从数据集中提取特征。在这些深度神经网络中,一个网络称为卷积神经网络。图像分类是机器学习中的一个重要问题
本文在电信和语音识别系统中考虑了自适应滤波算法的语音增强和降噪问题。在真实嘈杂的环境中存在这些系统会降低其效率并降低其性能。例如,对于电信系统,背景噪声信号破坏传输的语音信号并使其可懂度和质量降低。对于语音识别系统,它们使测试和训练语音信号之间不匹配。  过去已经提出了几种单麦克风增强技术,这里将对其进行讨论。这些技术中的大多数基于噪声平稳性的假设,但是在现实生活环境中,该假设未被广泛验证,这使得
学位
人类语音不仅提供了口语的语义信息,而且还包含了说话者的性别、年龄和情绪等相关特征。在过去十年中,语音识别由于许多原因已经变得必不可少。其中一个原因是它可以用于移动设备的身份识别和准入控制。另外,它还可以通过识别刑事案件中的嫌疑人来最大限度地减少嫌疑人的数量。此外,语音识别系统还可以用于推荐系统来基于人的年龄和性别推荐合适的商品。本论文所设计的年龄和性别识别系统,还可以进一步用于关于特定人群年龄和性
合成孔径雷达差分层析(Differential Synthetic Aperture Radar Tomography, D-TomoSAR)技术是近年发展起来的一项新的空间对地观测技术,它可进行高精度多维成像获得地表的高程以及形变信息。目前,该技术已在地质灾害预警、地球物理参数反演以及城市规划等领域得到了广泛的应用。与此同时,当前星载SAR系统正朝着多平台、多模式、高空间分辨和高重访率方向发展,
双目立体视觉技术作为一种主动测距方法,广泛应用在自动驾驶、虚拟现实、医学成像等领域中。由于制造误差、电路噪声等原因,双目相机实时采集的图像对存在着畸变、噪声污染等干扰,这些干扰会使得立体匹配效果变差。为了生成高质量、高实时性的图像对,本文在对相关理论进行研究分析后,优化、改进了图像畸变矫正算法和中值滤波算法,设计了基于FPGA(Fie1d Programmable Gate Array)的双目立体
学位
在现代工业生产中,随着生产效率的大幅度提升,传统的人工生产方式越来越不能满足现代化制造业的需求,现代化的生产方式需要一种全新的自动化技术,机器视觉技术应运而生。机器视觉应用图像识别技术代替人眼来做测量和判断,效率更高、精确度更好、客观性更强,且可以无休止的重复进行,大大提高了生产的自动化程度。本文对图像识别技术在机器视觉抓取系统中的应用进行研究,研究陶瓷基片识别和位姿获取算法实现抓取,具有一定的实
学位
随着移动互联网的迅速发展,移动网络流量呈现爆发式的突涨。移动用户对于各种内容文件的服务需求也日益增长。因此为了应对这些挑战,非常有必要向下一代移动网络架构引入新的技术应对流量骤增的现状。近些年,在移动网络边缘部署缓存被视为一种很有潜力的技术,通过在基站等边缘设备缓存流行内容,提高内容在网络内部的重复利用性,避免重复内容占用大量的网络资源。然而,移动边缘缓存的性能优化研究整体缺乏全面性与自适应性。同
学位
近年来,大型商场和仓库每年因盗窃而损失的金额达到千亿美元,而商品的盗窃检测系统都有着不完善的地方。传统的视频监控的方式很大程度上受到光线条件的影响,而现有基于射频识别(RadioFrequencyIdentification,简称为RFID)技术的盗窃检测系统不能有效处理一些非人为因素的误报警情况,如RFID系统的检测范围不明确导致可能识别到商场或仓库中未移动的物品,现有的基于RFID的盗窃检测系
学位