论文部分内容阅读
当今伴随着互联网的迅猛发展,各种不同表现形式、不同内容的图像数据也在以几何数量级的速度激增。面对如此纷繁浩大的图像数据库,如何快速而准确地检索到用户满意的图像结果,已经成为一个实用并且迫切需要解决的问题。高效的图像检索技术能够极大地有助于人们在互联网上进行数字娱乐,提高人们的生活品质。目前基于网页文本的检索技术相对已经比较成熟,但是Google、百度以及Flickr等公司各种基于图像的检索技术却由于自身的种种缺陷还都远远不能满足用户的需求。当前学术界比较关注的基于内容的图像检索技术主要是考虑通过挖掘图像本身的视觉语义特征进行相关检索。从图像中我们可以提取出颜色、纹理、形状以及关键点等多种多样的视觉特征,然后我们再使用图像的相似度计算或者利用模式识别与机器学习的方法来分析出这些图像所包含的高层语义信息,最后再融合各种其他算法检索出相关的结果。虽然人们采用了很多方法来训练学习图像的检索引擎,相关方面的研究也已有了数十年的发展,但当前基于内容的图像检索技术所达到的性能还不是很理想。一方面主要在于感知鸿沟的存在,利用当前技术提取的视觉特征对图像内容的表达还远远不够,而这些是实现基于内容的图像检索技术的基础,另一方面还在于语义鸿沟,暂时还没有比较好的方法可以统一规范不同的人对同一幅图像的理解表达。因此当前的着眼点还是放在如何更好地提取以及表示图像本身所蕴含的各类特征信息之上,以及如何合理地运用特征信息之间的联系帮我们实现基于内容的图像检索。本文中,我们主要关注在基于多标签学习的图像区域语义自动标注算法研究,其最终目的也是为了提高图像检索的准确率和效率。我们提出了一个基于EM迭代的非监督图像多标签区域标定算法,它能够非常有效地将基于全图的标签自动标定到图像的对应局部区域上。首先我们对所有图像进行SIFT特征点的密集采样,然后将在文本处理领域获得成熟应用的词袋模型类比使用到基于内容的图像分类中,结合对所有的SIFT特征点的K-means聚类获得图像视觉词典,再构造最大期望算法迭代过程计算出每幅图像中每个标签对每个存在图像视觉WORD的置信度,最后选择那些置信度较高的图像视觉WORD,确定每幅图像中每个标签置信度最高的对应区域。实验表明,在样本数据充分的情况下,本文提出的算法在解决非监督自动标定、标签表观的多样性以及多标签等问题上都取得了不错的效果。后续进行的工作将主要关注在改进特征表示的多样性和有效的特征组合方式,从而提高本算法在更多各类标签上的适用性和准确性。最后,我们对未来的基于内容的图像检索技术做出了展望。