基于大规模相似性搜索的Hashing算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hb2005_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展与普及,网络多媒体数据(包括:文档、图片、视频等)正在呈现爆炸式的增长,这给那些需要进行相似性搜索的应用带来了巨大的挑战,最典型的就是基于内容的图像检索。近年来,Hashing算法被广泛用来进行相似性搜索,因为它不仅可以节约存储空间,还可以显著地提高检索的时间效率。本文正是针对大规模相似性搜索这一问题,对Hashing算法进行研究。首先以传统谱哈希算法作为切入点,对它进行优化和改进。然后针对传统Hashing算法框架的缺点,提出新的Hashing模型。最后对现有的半监督Hashing算法进行重新建模,提高了检索准确度。本文主要工作和创新点包括:(1)提出了局部线性谱哈希模型。该模型针对谱哈希的缺点,对其进行优化,包括:(1)谱哈希只考虑了数据的近邻关系,对非近邻关系没有做处理。本文的方法则既考虑了近邻关系,也考虑了非近邻关系;(2)谱哈希需要计算一个n×n大小的相似性矩阵,当数据容量特别大的时候,该矩阵的构造非常耗时。本文的方法则采用了一个m×m(m<<n)的局部相似性矩阵,因为m远小于n,因此矩阵的构造效率非常高;(3)谱哈希在求解时,假设数据符合均匀分布,并且求解分析过程比较复杂。均匀分布的假设在很多情况下不符合实际,本文回避了该假设,并用相对简单的线性模型来求解提出的模型。最后的实验结果证明本文的方法既简单又高效。(2)提出了保局哈希模型。传统的Hashing算法会依次进行两个步骤:降维+量化。降维过程中,把高维数据降到低维空间上。量化过程中,把降维后的实数值量化成二值码。因为量化时,一般采用直接阈值化操作,因此这类方法很有可能会把降维过程中保留的数据局部结构给破坏掉。而本文将降维和量化结合在一起,用一种联合优化模型同时完成降维和量化操作,这样可以避免量化过程对数据局部结构的破坏。实验结果验证了本文的保局策略更加合理。(3)提出了保局判别哈希模型。Hashing算法可以分为非监督、半监督和监督三大类。半监督方法因为结合了标签和非标签数据,性能非常卓越,最具代表性的就是半监督哈希算法。但是该算法只考虑了标签数据的点对关系,忽略了全局信息。其次,它没有很好地去保留数据的局部空间结构。本文结合线性判别分析和线性保局投影,提出了保局判别哈希模型来同时考虑数据的局部结构和全局结构。在三个标准数据集上的实验结果证实了本文方法的稳定性和优越性。
其他文献
计算机软硬件技术飞速发展,有力地推动了嵌入式系统等专用计算机系统的广泛应用。一方面,在很多嵌入式系统中,系统使用者往往要求具有菜单、窗口和按钮等图形元素的人机交互
在经济全球化背景下,虚拟企业成为未来制造企业的主要运作模式。在信息技术领域,网格技术致力于提供支持虚拟企业的信息基础设施。利用网格及其相关技术构建制造网格是制造企业进行网络化制造的发展趋势。资源管理和调度是制造网格的核心技术之一。本文在分析网格资源管理与调度需求的基础上,提出制造网格资源管理和调度的多Agent模型。模型中主要包括用于代表制造网格资源的Resource Agent,用于代表用户的B
近几年随着无线通信技术、传感器技术、信息采集和处理技术的飞速发展,出现了低成本、低功耗、多功能的微型无线传感器节点。无线传感器网络是随着传感器节点的发展而兴起的
多年来,很多有理想互相关特性的周期为2 n ?1(n为非负整数)的二元序列族被提出,包括:Gold序列族;针对奇数n与Gold序列族具有相同互相关函数分布的类Gold序列;针对偶数n Udaya
近年来,由一组相互独立的系统组合而成的复杂系统,亦即“系统的系统”(System of Systems, SoS)逐渐引起了研究人员的重视。由于SoS的地理上的分散性、系统之间的复杂的交互
计算机网络在提供开放和共享资源的同时,也不可避免的存在着安全风险。了解网络系统现有以及潜在的风险所在,评估这些风险可能带来的安全威胁与影响程度,是实施安全建设必须
多标记分类研究一个对象同时与多个标记相关的问题。与传统的单标记分类相比,多标记分类更普遍,在许多领域,例如多主题文本分类、图像与视频标注等方面都具有实际的应用意义
随着计算机技术突飞猛进的发展,越来越多的企业对企业信息系统要求越来越高。软件开发者不断地研究比较优越的系统。框架成为一个系统的坚实砥柱,所以选择优秀的框架是研发者一
粗糙集理论是近年来发展起来的一种处理不确定、不精确、不完整数据的新的数学工具[1]。粗糙集理论自波兰科学家Pawlak于1982年提出以来,已经被成功的应用于机器学习、数据挖
随着计算机网络的快速发展,分布式应用系统的性能和可用性面临巨大的挑战。对于分布式应用系统,一般都存在用户数目多和并发访问量大而造成系统负载严重的问题,使得系统的可