论文部分内容阅读
随着互联网的快速发展与普及,网络多媒体数据(包括:文档、图片、视频等)正在呈现爆炸式的增长,这给那些需要进行相似性搜索的应用带来了巨大的挑战,最典型的就是基于内容的图像检索。近年来,Hashing算法被广泛用来进行相似性搜索,因为它不仅可以节约存储空间,还可以显著地提高检索的时间效率。本文正是针对大规模相似性搜索这一问题,对Hashing算法进行研究。首先以传统谱哈希算法作为切入点,对它进行优化和改进。然后针对传统Hashing算法框架的缺点,提出新的Hashing模型。最后对现有的半监督Hashing算法进行重新建模,提高了检索准确度。本文主要工作和创新点包括:(1)提出了局部线性谱哈希模型。该模型针对谱哈希的缺点,对其进行优化,包括:(1)谱哈希只考虑了数据的近邻关系,对非近邻关系没有做处理。本文的方法则既考虑了近邻关系,也考虑了非近邻关系;(2)谱哈希需要计算一个n×n大小的相似性矩阵,当数据容量特别大的时候,该矩阵的构造非常耗时。本文的方法则采用了一个m×m(m<<n)的局部相似性矩阵,因为m远小于n,因此矩阵的构造效率非常高;(3)谱哈希在求解时,假设数据符合均匀分布,并且求解分析过程比较复杂。均匀分布的假设在很多情况下不符合实际,本文回避了该假设,并用相对简单的线性模型来求解提出的模型。最后的实验结果证明本文的方法既简单又高效。(2)提出了保局哈希模型。传统的Hashing算法会依次进行两个步骤:降维+量化。降维过程中,把高维数据降到低维空间上。量化过程中,把降维后的实数值量化成二值码。因为量化时,一般采用直接阈值化操作,因此这类方法很有可能会把降维过程中保留的数据局部结构给破坏掉。而本文将降维和量化结合在一起,用一种联合优化模型同时完成降维和量化操作,这样可以避免量化过程对数据局部结构的破坏。实验结果验证了本文的保局策略更加合理。(3)提出了保局判别哈希模型。Hashing算法可以分为非监督、半监督和监督三大类。半监督方法因为结合了标签和非标签数据,性能非常卓越,最具代表性的就是半监督哈希算法。但是该算法只考虑了标签数据的点对关系,忽略了全局信息。其次,它没有很好地去保留数据的局部空间结构。本文结合线性判别分析和线性保局投影,提出了保局判别哈希模型来同时考虑数据的局部结构和全局结构。在三个标准数据集上的实验结果证实了本文方法的稳定性和优越性。