论文部分内容阅读
随着移动互联网的发展,社会媒体(social media)已经成为人们获取信息、交换信息的主要场所,分析理解这些多模态社会媒体数据具有广泛的应用需求和应用价值。社会媒体数据呈现出底层特征异构、高层语义关联的特性。一方面,单一模态描述力不足,不同模态数据提供了不同层次的语义信息,并且互为补充,需要有效组织多种模态的数据,以真正反映社会媒体内容。另一方面,多模态数据处于异构特征空间,不同模态间的数据关联关系复杂多样,需要研究多模态数据间的互联与共享机制,以建立跨模态数据的关联通道。本文针对社会媒体数据不同模态间的语义互补性与空间异构性等特点,对基于多模态的社会媒体分析与检索问题进行了深入研究。论文的主要工作有:1.针对多模态的社会媒体表达进行了研究。社会媒体中,图像内容提供底层视觉特征,上下文提供了高层语义特征,多模态信息会比单一模态信息提供更多的信息量。提出了一种基于视觉内容的特征融合方式作为社会媒体的表示方法,将上下文信息作为正则项约束图像视觉特征,在此基础上进行非负矩阵分解,寻求一个将语义信息融入图像特征的隐含空间来表示社会媒体。实验结果表明,基于内容的社会媒体融合表示与基于上下文的媒体融合表示具有互补性,结合这两种特征表达方式得到了较好的结果;2.针对多模态融合与多标签关联相结合的直推式社会媒体分类进行了研究。多标签是社会媒体中除多模态之外另一个显著的特性。多模态从不同视角来表达社会媒体的内容,而多标签阐述了社会媒体中对象的共生关系。两者从不同方面对社会媒体内容进行了描述。针对这两个特点,本文提出了一种基于超图的直推式学习算法,在多模态融合的基础上结合了多标签关联的特性。首先,针对多模态融合,提出了一种新颖的多模态融合算法,通过构建一个统一的超图来有效地组织多模态异构数据。针对该融合策略中存在的计算效率低的问题,在统一的多模态超图基础上改进了超图的构建方式,提出了一种高效的多模态超图构建方法。其次,针对多标签关联,通过构建一个标签间的关联超图来表示对象间复杂的关联关系。算法通过联合使用多模态超图与多标签超图,自适应地学习超边权重与标签得分来对社会媒体内容进行分析。在两个真实的社会图像数据集Pascal VOC 07与MIR Flickr中的实验结果表明,所提算法优于目前其他直推式学习算法;3.针对用户标签的社会媒体相关性分析进行了研究。用户生成的标签是社会媒体的一个显著特性。用户标签的不规范性与主观性使得不能直接通过用户标签获取相关的社会媒体内容。本文提出了超边关联的超图模型,在超图学习中引入了超边间的高阶关系。针对用户标签“错标”与“漏标”的情况,简化了超边关联的超图,提出了文本-视觉二阶混合超边的超图构建方法。在快速构建超图的前提下,减小视觉词汇与文本词汇中噪声的影响,通过优化超边权重的策略减小了具有歧义的混合超边对算法性能的影响。同时,提出了基于bagging的超边随机选择方法,通过并行算法解决混合超边数量过多的问题。实验结果表明该方法在基于用户标签的社会媒体检索与标签分配两个任务中的性能要优于传统超图学习方法;4.基于高阶异构保持的跨模态关联学习。针对社会媒体用户标签稀疏且噪声多所导致的文本与图像信息不对称的跨模态关联这一问题,本文提出了一种利用高阶、语义与非线性相结合的跨模态关联学习算法。在建模多模态数据对内部强关联性的基础上,通过超图来描述社会媒体数据间的高阶关系,以此建模高阶的多模态数据对间的弱关联,通过权衡这两种关联进行跨模态关联学习。该方法强调了多模态对间关联性的作用,通过建立多模态对间的关联性,间接的扩大了训练集,从而缓解了社会媒体数据中文本稀疏与噪声多造成的难以进行跨模态关联的问题。在超图构建策略方面,分别针对有监督与非监督的应用场景,提出了基于语义类别标签的随机近邻挑选策略,强调了语义信息在跨模态关联中的作用。最后,对算法进行了 kernel扩展,强调了非线性在跨模态关联中的作用。在Wikipedia、Pascal与NUS-WIDE三个数据集上验证了算法的有效性。