论文部分内容阅读
多媒体信息在人们的日常生活中起着越来越重要的作用。因而,如何在浩如烟海的多媒体数据库中快速、高效地检索到所需要的图像已成为一个非常有意义且具有挑战性的课题。本文着重研究了图像检索中的特征表示模型和多信息源融合的方式。通常来讲,图像检索主要可以分为以下两类:基于文本的图像检索和基于内容的图像检索。早期的图像检索系统大部分以基于文本的图像检索为主,该方法主要通过简单地匹配用户输入的关键词和数据库中图像相应的文本描述的方式搜索相关的图像。这种方法需要事先以文字信息的方式标注数据库中的每一幅图像,这是一个目前还有待于进一步解决的难题,而且文本标注的质量将会直接影响到后续图像检索精度。随后基于内容的图像检索逐渐得到发展,该方法从图像本身出发,直接提取图像的底层视觉特征,并对基于这些视觉特征建立索引,从而实现检索。本文首先重点研究了图像检索中图像的视觉特征表示方法。图像特征提取是图像检索中的关键步骤,如何从原始图像中提取具有较强表示能力的图像特征是图像检索技术的一个研究热点。目前用于表示图像的特征可以划分为底层视觉特征和高层语义特征。由于技术的限制,图像检索的特征一般是通过底层视觉特征来表达图像的高层语义。通常来讲,图像的底层视觉特征又可以分为全局特征和局部特征。与全局特征相比,大多数局部特征对图像的尺度缩放、旋转、仿射变换、光照变化等具有不变性,因此由局部特征来表示图像并建立相应的索引,可以取得比全局特征更准确的检索结果。其中SIFT特征因其卓越的性能和检测速度快的优点而被广泛使用,尤其是将SIFT特征与倒排文档技术(TF-IDF)相结合构成词袋模型(BoW)更是成为目前的主流方法。但原始BoW模型存在缺少空间信息和语义信息的不足的问题。为了缓解这一问题,本文深入探索BoW模型中视觉词汇之间的空间关系和语义关系,提出一个两级图像特征表示模型——短语袋模型,该模型不仅能够在BoW模型中增加空间信息,以及更好的表示图像所包含的语义信息,并且对于背景杂波也有一定的抑制作用。本文的另一个重点研究内容是图像检索中多信息源的融合方式,即如何通过结合网络中与图像相关的其他多媒体信息、,如文本、语音、视频等信息源,从而提高图像检索的性能。在多信息源融合方式的探索方面,鉴于聚类和分类是图像检索的关键步骤,对后续图像检索的精度和性能有较大程度的影响,本文首先探索了近年来5类比较典型并且被广泛接受的图像聚类/分类算法,包括2类单一信息源的算法:基于文本的图像聚类/分类和基于图像内容的图像聚类/分类,以及融合多种信息源的3类多视角学习算法:特征级融合、语义级融合和内核级融合,并在此基础上比较各种分类算法的性能。通过比较,本文得到了以下初步结论:基于单一信息源的两种算法由于所含的信息量有限,往往无法达到较高的正确率;一旦融合了多种可用的信息源,其性能会有较大幅度的提高。然而,上述三类多视角学习算法都是首先独立地处理多个信息源的数据,然后在三个不同级别上对多个信息源进行融合,共同之处是忽略了多种信息源之间的交互。因此,在本课题的研究中,本文首先探索了不同信息源(如文本信息和图像信息)之间进行相互指导和帮助的可行性,然后基于此提出了两种多视角的学习方法:动态加权和基于图像区域的语义概念融合,从而有效地融合了来自多种信息源的数据,提高网络图像聚类/分类的性能,达到更好的检索效果。为了进一步提高上述两种多视角学习方法处理大规模数据的性能,本文又提出了一种多媒体信息融合的框架,该框架通过分析不同网络图像的特殊性质有效地融合了上述两种多视角学习算法,能够以相对较少的计算时间获得较高的分类性能,从而较好地处理大规模的网络多媒体数据,还可以解决实际应用中最常见的某些网络图像缺失相应的文本描述的问题。除了研究上述问题,本文还进一步探索了网络图像与其相应的文本描述之间在语义层面上的“关联性”,并利用这种语义关联性增强图像分类的特征空间,本文将此过程称为迁移学习。该交叉域的迁移学习的方法可以通过未标注真实类别标签的网络多媒体数据完成有监督分类的学习任务。实验结果表明:通过迁移相关性知识,本文提出的基于交叉域相关性知识的分类方法不仅能够成功地将网络中多种相关的信息源有效地融合起来处理大规模的网络数据,而且可以较好地解决实际应用中部分多媒体目标对象存在的某种信息源缺失的问题。