论文部分内容阅读
随着社交网络的迅速发展,越来越多的用户习惯于通过文本、图像、视频等多种媒体形式分享自己观点,参与其他用户的互动交流。挖掘并捕捉其中蕴含的主观性信息对于舆情分析、市场营销与投资预测等具有重大意义。因此,多模态情感分析已经成为人工智能领域的核心研究课题之一,引起学术界和工业界的共同关注。然而,研究界对交互特性的理解尚未明确与深入,建模交互的研究方法相对简单,以经典概率理论为基础的传统方法在交互建模方面还存在一些局限,如何准确且全面地建模多模态文档中的复杂交互成为困扰该领域的关键性难题。为了解决这一难题,本文从社交平台上的主观性文档(文本与图像)出发,分别对多模态情感分析中位于不同层面的三种典型交互子问题展开了研究,建立起一套完整的多模态类量子交互建模理论体系,并发展出相应的类量子多模态交互模型。本文主要的内容和创新点如下:
1.模态内的词项交互问题,即单词之间、像素之间的相互关联与交互。
针对该问题,本文提出一种多模态类量子语义表示模型与一种类量子情感表示模型。对于文本,将每个单词视作量子概率空间中的基本事件,表示为投影算符(projector)。而组合词或情感短语被视作量子事件的叠加态,形式化为投影算符的交互组合。通过这种方式,文档形式化为投影算符的序列,运用最大似然估计方法训练出密度矩阵,最终表示该文档。类似地,对于图像,根据像素点提取尺度不变特征变换(SIFT)特征,构建视觉单词词典,将每个视觉单词视作量子基本事件,表示为投影算符,统一封装到图像对应的密度矩阵。相比于向量表示,密度矩阵能够编码(视觉)单词的概率分布,计算(视觉)单词的二阶相关性,捕捉词项间的交互。
2.模态间的决策交互问题,即文本决策结果与图像决策结果之间的干涉。
针对该问题,本文提出一种量子干涉理论启发的多模态决策融合方法。对于多模态情感分析任务,不同的模态纠缠在一起共同表达作者的情感,它们会同时影响用户对情感的决策判断,表现为决策融合过程中的交互干涉现象。本文将多模态情感分析类比为量子双缝干涉过程,将用户的认知状态视作文本情感与图像情感的叠加态,采用波函数形式化描述,从而推导出新颖的多模态决策融合方法。该方法通过引入干涉项去建模多模态之间的决策关联。
3.模态外的话语上下文交互问题,即文本会话中话语上下文之间的影响与交互。
针对该问题,本文首先建立并开源一个高质量的文本会话情感数据集,用以促进交互式情感分析领域的发展。其次,本文提出一个上下文交互式长短期记忆网络。主要特点是在文本会话情感分析任务中,阐述交互动力与聊天会话的关联性,定义了上下文交互的多维特性,即理解、可信度和影响。本文修改标准长短期记忆网络结构,将这三种特性融入其中,使其显式地学习文本会话情感分析中的上下文交互动力。最后,本文提出一个类量子上下文情感交互网络模型。该模型通过一个基于密度矩阵的卷积神经网络提取文本特征,作为其输入。随之提出一个量子测量理论启发的强弱影响力模型,捕捉话语流之间的强、弱交互,并将他们融入到每个长短期记忆网络输出门中,获得最终的情感预测结果。
4.多模态会话聊天中的全面交互问题,包含以上三种典型子交互问题。
针对该问题,本文糅合以上三种理论模型,建立起一套完整的多模态类量子交互建模理论体系,发展出相应的类量子多模态交互网络框架。具体而言,该框架以多模态类量子表示模型提取文本与图像特征,以量子测量理论启发的强弱影响力模型捕捉话语间上下文强、弱交互,以量子干涉启发的多模态决策融合方法合并文本与图像决策结果,获得最终情感识别结果。该框架能够同时建模模态内(词项)交互、模态间(决策)交互与模态外(话语上下文)交互。
综上所述,本文的研究成果有助于加深对复杂交互的认识,为多模态交互式情感分析领域的发展提供新鲜的理论,具有重要的科研意义与社会价值。
1.模态内的词项交互问题,即单词之间、像素之间的相互关联与交互。
针对该问题,本文提出一种多模态类量子语义表示模型与一种类量子情感表示模型。对于文本,将每个单词视作量子概率空间中的基本事件,表示为投影算符(projector)。而组合词或情感短语被视作量子事件的叠加态,形式化为投影算符的交互组合。通过这种方式,文档形式化为投影算符的序列,运用最大似然估计方法训练出密度矩阵,最终表示该文档。类似地,对于图像,根据像素点提取尺度不变特征变换(SIFT)特征,构建视觉单词词典,将每个视觉单词视作量子基本事件,表示为投影算符,统一封装到图像对应的密度矩阵。相比于向量表示,密度矩阵能够编码(视觉)单词的概率分布,计算(视觉)单词的二阶相关性,捕捉词项间的交互。
2.模态间的决策交互问题,即文本决策结果与图像决策结果之间的干涉。
针对该问题,本文提出一种量子干涉理论启发的多模态决策融合方法。对于多模态情感分析任务,不同的模态纠缠在一起共同表达作者的情感,它们会同时影响用户对情感的决策判断,表现为决策融合过程中的交互干涉现象。本文将多模态情感分析类比为量子双缝干涉过程,将用户的认知状态视作文本情感与图像情感的叠加态,采用波函数形式化描述,从而推导出新颖的多模态决策融合方法。该方法通过引入干涉项去建模多模态之间的决策关联。
3.模态外的话语上下文交互问题,即文本会话中话语上下文之间的影响与交互。
针对该问题,本文首先建立并开源一个高质量的文本会话情感数据集,用以促进交互式情感分析领域的发展。其次,本文提出一个上下文交互式长短期记忆网络。主要特点是在文本会话情感分析任务中,阐述交互动力与聊天会话的关联性,定义了上下文交互的多维特性,即理解、可信度和影响。本文修改标准长短期记忆网络结构,将这三种特性融入其中,使其显式地学习文本会话情感分析中的上下文交互动力。最后,本文提出一个类量子上下文情感交互网络模型。该模型通过一个基于密度矩阵的卷积神经网络提取文本特征,作为其输入。随之提出一个量子测量理论启发的强弱影响力模型,捕捉话语流之间的强、弱交互,并将他们融入到每个长短期记忆网络输出门中,获得最终的情感预测结果。
4.多模态会话聊天中的全面交互问题,包含以上三种典型子交互问题。
针对该问题,本文糅合以上三种理论模型,建立起一套完整的多模态类量子交互建模理论体系,发展出相应的类量子多模态交互网络框架。具体而言,该框架以多模态类量子表示模型提取文本与图像特征,以量子测量理论启发的强弱影响力模型捕捉话语间上下文强、弱交互,以量子干涉启发的多模态决策融合方法合并文本与图像决策结果,获得最终情感识别结果。该框架能够同时建模模态内(词项)交互、模态间(决策)交互与模态外(话语上下文)交互。
综上所述,本文的研究成果有助于加深对复杂交互的认识,为多模态交互式情感分析领域的发展提供新鲜的理论,具有重要的科研意义与社会价值。