论文部分内容阅读
大量数字设备的巨大发展为数字图像的获取和共享创造了无数机会。然而,过多的数字图像形成了庞大的组织管理不善的图像资料库。基于内容的图像检索(content based image retrieval,CBIR)被认为是一种索引和检索大规模图像数据库最合适的方法之一。CBIR系统的核心概念是在用户提供一个样本图像或其它语义线索(比如指定颜色、关键字或草图)的情况下帮助用户检索出一定数量的相似图像。现有的CBIR系统主要通过分析和提取图像内容(即颜色,形状,纹理)来检索视觉图像。然而,我们非常需要一个可以将文本内容(即出现在图像内的文本)作为视觉和文本图像检索依据的系统。本文重点研究了通过考虑图像的视觉和文本特征来检索视觉和文本图像的新方法。本文主要关注点如下。(1)本研究解决了基于可视文本的相似文本图像搜索与检索问题,提出一种从文本图像中检测文本的新方法,并将该文本作为关键词来索引和检索相似文本图像。首先,使用最大稳定极值区域(maximally stable extremal region,MSER)算法来检测文本区域。其次,使用基于几何约束和笔画宽度变换(stroke width transform,SWT)的两步滤波器来消除不想要的误报文本区域。剩余的文本区域进入下一步以进行光学字符识别。然后,使用神经概率语言模型形成关键字。最后,基于形成的关键字对相似文本图像进行检索。实验结果表明,文本特征的优势对于检索文本图像是有效的。(2)由于文本图像包含有效的目标和物体,它们可能有助于对图像进行感知和识别。因此,本文提出一种通过考虑视觉和文本特征来检索相似文本图像的方法。第一步为视觉特征提取,提取并定位视觉显著关键点。第二步为文本特征提取,检测并识别出现在图像内的文本。然后,为两种类型的特征指定两个特征向量,并使用核方法来融合这两个特征向量。基于融合的特征向量可以检索出排名靠前的相似文本图像。该方法允许用户通过提供图像查询,关键字或两者的组合以三种可能的模式搜索文本图像。实验结果表明,将文本特征与视觉特征相结合可以提供高效的检索结果。(3)搜索和检索文本图像虽然是一个很好的方案,但是并不是所有图像都包含文本特征,而可能只包含显著视觉对象。视觉(即颜色,形状,纹理)或文本(即出现在图像中的文本)这两种类型的内容都涉及感知图像的基本特征。考虑到这一点,本文提出一种决策CBIR方法,能够区分和检索视觉和文本图像。首先,该方法将查询的图像分为文本或非文本图像。如果查询的是文本图像,则图像中出现的文本将被识别并形成为文本词袋。否则,处理查询图像以提取构成视觉词袋的视觉显著特征。其次,将视觉和文本特征融合在一起,并基于融合特征向量对排名靠前的相似图像进行检索。该方法允许用户根据待查询图像、关键字和两者结合进行查询。实验结果表明,该方法提高了视觉和文本图像检索的效率和准确性。(4)本文提出一种搜索和检索不同类别视觉图像的新方法。为了提高传统搜索的效率和准确性,提出了一种将低级视觉特征与颜色信息相结合的新方法。首先,用特征描述符提取视觉显著关键点并量化为特征向量。其次,使用非线性颜色空间模型提取和分割图像的颜色分布。然后,计算视觉特征和颜色特征的特征向量的相似性。最后,基于合成向量检索排名靠前的相似图像。实验结果表明,与最先进的方法相比,本文提出的方法的效率和准确性都得到了提高。