论文部分内容阅读
近年来,智能手机及其它移动智能设备呈现出了爆发式的增长与普及。高清摄像头、大容量存储和高速的网络连接为用户创造了极其便利的拍摄和分享条件,用户几乎可以在任意时间、任意地点拍摄照片或视频,并将它们分享到社交网络上,产生了海量的社交多媒体数据。然而,这些数据都以碎片化的形式存在,当前的社交多媒体系统缺乏智能的工具或服务将它们组织起来,并选取符合用户个性化需求的数据呈现给用户,用户也很难快速准确地检索到他们需要的数据。因此,如何充分挖掘和利用社交多媒体数据成为了当前重要的研究问题。本论文针对社交多媒体数据的语义理解和关联表达做了深入研究,目标是实现一个能够理解社交多媒体数据、根据用户需求选取有关联的数据并以丰富的表达形式呈现给用户的关联表达系统。由于社交多媒体数据的语义内容丰富多样,收集并标注每个语义的训练数据的难度和成本很高,因此语义理解首先需要解决标注难的问题。其次,由于社交多媒体数据的规模庞大,语义理解需要解决处理慢的问题。社交多媒体数据的关联表达是基于社交多媒体数据的语义理解,根据用户个性化的需求选取有关联的数据,并以丰富的表达形式呈现给用户。本论文分别从照片和视频两个角度研究了关联表达的具体应用。语义理解和关联表达构成了挖掘和利用社交多媒体数据相对完整的框架。针对上述问题,本论文的主要研究工作和创新成果包括:1.对于语义理解标注难的问题,提出了一种直接从社交多媒体数据学习目标识别模型的弱监督相关反馈深度学习算法。传统深度学习算法对于训练数据中的标注噪音十分敏感,本论文基于感知连续性,利用数据在特征空间的相互关系,使得不同数据在训练过程中有不同的贡献加权,从而抑制标注噪音的影响。实验结果表明,与已有算法相比,本论文提出的弱监督相关反馈深度学习算法具有更好的噪声鲁棒性。2.对于语义理解处理慢的问题,论文首先从减少数据特征种类和数目的角度提出了一种从大规模高维数据中选取特征的高效算法。本论文基于二阶在线学习算法,利用特征的置信度选取特征,并提出了基于堆结构的快速在线特征选取算法。由于置信度的单调递增特性,本论文进一步将算法的复杂度降低为与非零特征数目成正比。实验结果表明,该算法能够极大减少特征选取的计算时间,并达到接近甚至超过当前最好特征选取算法的准确率。其次,论文从加快提取深度特征速度的角度提出了基于在线特征选取的深度卷积神经网络模型简化算法。算法增加了对应卷积层输出特征图每个通道的权重层,通过在权重层上进行特征选取,将三维卷积核的组稀疏优化问题转化为一维特征选取问题。实验结果表明,该模型简化算法在几乎不影响模型准确率的情况下极大减少了模型的参数个数。3.对于照片关联表达问题,设计并实现了一个基于主题的照片集故事化表达系统Monet。系统首先检测照片集中的事件并选取一部分代表性的照片子集,完成对照片集的分析与梳理。其次,系统根据对照片的语义理解结果赋予不同照片不同的主题,并针对每个主题的照片运用可计算的风格模板生成具有关联表达能力和丰富表达效果的音乐视频。实验结果表明,Monet系统提供了更好的照片集分析与梳理和故事合成效果。4.对于视频关联表达问题,设计并实现了一个全自动移动多摄像头视频自动剪辑系统MoVieUp。论文从音频剪辑和视频剪辑两个角度解决自动剪辑问题。音频剪辑评估所有音频流的质量,在最少切换次数准则下选取高质量的音频流片段,并拼接成单一音频流。视频剪辑首先根据音频的节奏和语义选取镜头切换点,其次在保证镜头运动一致性的条件下最大化镜头质量和镜头多样性,完成镜头选取和拼接,得到单一视频流。实验结果表明,MoVieUp系统达到了当前最好的移动多摄像头视频自动剪辑效果,提供了更好的用户体验。