论文部分内容阅读
近年来,随着数码拍照设备的普及以及网络和存储技术的发展,网络中图像的数量呈现出爆炸式的增长趋势。特别是伴随Web 2.0技术的出现,海量用户产生的图像得以通过社交分享网站(如Flickr和Instagram)被分享和传播。与此同时,互联网中图像资源的快速增长也催生了对高效的图像检索系统的需求。现有的商用图像检索系统需要依赖图像附加的文本信息来为用户提供检索服务。但是,人工进行图像标注的过程费时费力,因此自动图像标注技术受到图像检索领域的广泛研究。另一方面,对于社交分享网站中的图像,用户提供的标签往往不能准确且全面地描述图像的真实内容,因而也难以作为图像检索中可靠的索引关键字。因此,图像检索研究中的一项基础研究是来处理图像的标签信息,特别是提高标签对图像内容的描述能力。除此之外,由于仅利用了图像的文本信息,现有的图像检索系统返回的结果往往并不能令人满意。因此,如何基于图像的视觉信息对原始的检索结果进行重排序也是图像检索领域的重要问题之一。本文展开了一系列研究工作来提高当前图像检索系统的性能,详细讨论了图像标注、标签相关度学习、标签推荐和图像重排序这四个重要问题。论文的主要工作和创新性可以归纳为以下几个方面:(1)本文提出了一种新颖的图像标注方法,该方法同时改进了基于近邻的方法中的两个阶段。在近邻搜索阶段,不同于现有的方法通过预测距离来发现视觉近邻,我们介绍了一种面向排序的近邻搜索机制,采用排序学习框架来直接优化已标注图像相对于待标注图像的相对顺序,而非它们之间的绝对距离。在排序过程中,我们利用了已标注图像中隐含的偏序信息并强调高位置的排序结果的准确性。在关键词传递阶段,不同于现有的方法采用简单的启发式规则来选择传递关键词,我们介绍了一种基于学习的关键词传递策略,利用监督学习技术来学习一个可以评估候选关键词相关度的得分函数。关键词的相关度是根据它与待标注图像的视觉近邻之间的不同关系来决定的。在Corel 5K和MIRFlickr数据集上的大量实验证明了该方法的有效性。(2)本文提出了一种面向排序的标签相关度学习方法,该方法从排序学习的角度来解决标签相关度学习这一问题,并在学习过程中直接优化基于标签的图像检索的排序性能。具体来说,我们将监督学习的步骤引入到近邻投票策略中,该策略通过累积视觉近邻的投票来估计一个标签的相关度。通过明确地建模视觉近邻的权重以及标签之间的相关系数,我们的方法有效地避免了传统的非监督学习方法中进行启发式假设的风险。此外,我们的方法也解决了传统的监督学习方法中的可扩展性问题。通过在两个基准数据集上与其他先进的方法进行比较,我们证明了本文的方法的有效性。(3)本文提出了一种结合相关性和多样性的图像标签推荐方法。以往的图像标签推荐方法往往利用标签间的共现信息来进行标签推荐。但是,由于忽略了图像的视觉信息以及被推荐标签之间的语义多样性,以往方法的推荐结果常存在标签歧义和标签冗余的问题。为了解决上述问题,我们的方法在推荐时综合考虑了被推荐标签的相关性和多样性。首先,方法建模每一个标签的视觉语言模型,并利用它来分别计算标签和图像的相关性以及标签之间的视觉距离。然后,基于上述计算,我们提出了一个贪心选择算法来找到能合理地平衡相关性和多样性的标签集合,将该集合作为最终的推荐。在Flickr数据集上的实验表明,本文的方法在准确率、主题覆盖率和F1测度上均优于其他先进的方法。(4)本文提出了一种结合相关性和多样性的图像重排序方法,该方法是一个基于聚类的重排序方法,综合了已有的相互投票算法和贪心选择算法的优点。我们的方法利用相互投票算法在原始搜索结果中选择一些图像作为候选代表图像,并利用一个受限制的贪心选择算法来选择最相关且最有新鲜感的图像作为聚类中心。为了计算图像间相似度,我们结合了包括颜色、形状特别是潜在主题模型在内的多种特征,并详细讨论了结合不同特征的好处。我们在真实的Web图像数据集上对本文的方法进行评估,实验结果表明本文的方法可以从聚类召回率、NDCG和F1值等不同方面来提高用户满意度。