论文部分内容阅读
目前面向图像的搜索引擎主要有两种:一是基于文本信息的图像检索系统,根据图像信息通过人工进行文本描述,该方式是在早期图像量不大的时候提出的。现在面对浩如烟海的图片量,手工标注的方式,劳力耗费太大,并且具有较强的主观性,标注的人根据自己的认知进行判断,图片反馈的信息很大程度上跟人的心理活动有关,因此这种检索方式已经越来越不能满足现在的要求。二是基于图像视觉内容的图像检索系统。主要是通过提取稳定的图像视觉特征并形成描述子,构建以距离相似度为索引方式进行检索,返回按照底层特征相似度大小排序的图像。但是人们检索的思维习惯是在语义基础上,视觉底层相似的图像可能表达不同的语义信息,视觉特征不相同的图像的语义信息有可能是相同的。这就是通常意义上基于内容图像检索带来的“语义鸿沟”。本文就此展开研究,在机器学习的基础上,将图像底层视觉特征与高层语义建立映射关系,结合监督学习和非监督学习两种方式构建语义标注模型。选用Dense SIFT采样形成SIFT局部描述符,完成对图像的特征提取和描述。由于特征维数较大,对每个描述符进行降维,接下来对特征进一步表达,分别选用词袋(Bag of Word, BOW)、局部特征聚合描述符(Vector of Locally Aggregated Descriptors, VLAD)、Fisher向量(Fisher Vector, FV)。FV相对BOW具有较大的数据编码优势,用较少的视觉词典形成更加细致的中间表达。为了弥补特征描述子的不足,引入了空间金字塔的特征表示方法,丰富了图像特征空间信息,最后使用支持向量机标注图像语义。图像语义标注模型被建立,图像检索可通过语义特征实现。但语义空间内相似图像太多,有时仍不能满足用户的需求。因此在此基础上,本文在图像检索系统上加入图像底层视觉特征的直接索引作为辅助检索,能够按照用户视觉上相似度进行排序,进一步实现精确查找。该实现方法兼顾了由有监督学习的方式得到的图像语义特征和由无监督学习的方式得到的底层视觉特征两种方式的优点,不仅实现了更符合人思维习惯的图像检索方式,通过自然语言描述的视觉概念查找,而且极大的提高了图像检索系统的有效性和准确性。