论文部分内容阅读
近年来,图像检索成为多媒体信息检索领域的重要研究课题。“语义鸿沟”,即用户从视觉数据中提取的信息和用户自身对视觉数据的理解之间的不一致性,是图像检索中一个根深蒂固的问题。在基于语义的图像检索技术中,通过物体识别或者自动标注等建立有效语义概念模型都是为了缩短语义鸿沟。定义一个良好的语义概念库是这些方法中数据搜集、模型建立的第一步也是极为关键的一步。语义概念所固有的语义鸿沟不尽相同,目前的信息处理与图像理解方法还远远达不到提取图像中抽象(深层)语义的要求。更现实的途径是设法找出那些计算机容易学习的具有较浅语义鸿沟的语义概念,这些语义概念更有助于概念检测模型的训练,继而进行语义的识别及自动标注。因此,找出浅语义鸿沟词库对于基于语义的图像检索技术有着重要的意义,其涉及到两个主要问题:1)如何定义浅语义鸿沟的“浅”,也就是说如何有效地衡量语义鸿沟?2)如何自动找出此类语义?本课题所做的工作就是创新性地解决这两个问题,最终构建浅语义鸿沟词库,该语义词库能在研究大规模图像检索时的数据搜集、特征选择、构建检索模型、图像标注等方面提供有用的建议。本文首先阐述了构建浅语义鸿沟词库的基本框架:1)对240万幅互联网图像提取语义文本特征以及多种低层视觉特征,分别建立有效索引。2)在不同的语义鸿沟模型下,对每一幅图片计算其视觉-文本置信度,也就是衡量该图像及其近邻在视觉特征空间和文本特征空间下两种分布的一致性。3)利用仿射传播聚类算法对具有最高视觉-文本置信度的图像进行聚类。4)从聚类结果中进行基于文本内容的关键词提取工作,相关度最高的关键词则是最具有浅语义鸿沟的语义概念。针对不同视觉空间下语义鸿沟不同的情况,本文从多个低层视觉空间出发,分别基于颜色特征、纹理特征以及颜色纹理综合特征,构建了对应的浅语义鸿沟词表。比较分析其异同点,得到基于视觉特征的浅语义鸿沟词库,它能为图像检索中语义概念的特征选择提供有效的建议。针对图像在视觉空间和文本空间的分布不一致性,本文提出了两种对偶的语义鸿沟模型——文本扩散模型和视觉扩散模型。从本质上来说,两种语义鸿沟模型分别对应于基于视觉内容的检索方式和基于文本内容的检索方式。综合由两种模型得到的浅语义鸿沟词库能为语义概念选择合适的检索方式,并能应用于图像标注的优化。本文提出了采用仿射传播聚类算法解决大规模图像聚类问题。该聚类算法有四大优点:1)无需事先确定聚类的类别数。2)要求的输入是相似性矩阵。对于需要同时考虑视觉和文本两重相似性的图像聚类来说,利用相似性矩阵比利用高维数据点更合理有效。3)亦适用于两图像间相似性不对称的情况。4)能有效处理大规模数据集。大量的实验数据充分表明:在本文构建的浅语义鸿沟词库中,各个浅语义鸿沟词表相互独立相互补充,在大规模图像检索研究中的数据搜集、低层特征选择、有效检索方式选择以及图像标注等环节均起到了重要作用,为基于语义的图像检索技术的发展提供了新的思路。