论文部分内容阅读
数据检索是计算机科学领域中的一个重要问题。近年来,随着互联网技术、通讯技术及多媒体技术的快速发展,高维的多媒体数据呈现出指数级增长。如何对这些大规模高维多媒体数据进行高效检索,对传统的检索技术带来了新的挑战。因此,开展高效的大规模高维数据索引技术已成为数据挖掘领域的研究热点,具有很好的理论研究意义和实际应用价值。基于哈希的索引方法已经被证明是一种有效的索引技术。本文在基于迭代量化哈希索引算法的基础上引入局部约束,实现了聚类驱动的迭代量化,从而获得更为紧凑的哈希码书;在此基础上,将其扩展到多视角数据索引。本文的研究成果主要包括:1.提出了基于聚类驱动的迭代量化哈希模型。迭代量化哈希算法只考虑了原始数据集映射前后整体结构的保持,而忽略了数据集局部结构的变化,造成原始数据的结构在哈希空间没有得到有效的保持。为解决该问题,本文在迭代量化哈希的基础上引入聚类驱动的局部约束,从而使原始高维数据在映射前后的整体结构和局部结构得以有效保持,此外,本文还提出了一种高效的针对外点的哈希码生成方法,满足在线检索的实时性要求;2.针对目前大量存在的多视角数据,本文提出了一种基于共享子空间(Shared Subspace)的多视角关联模型,该模型在获得多视角数据显性共享表示的同时,能够对多视角数据形成一致性表示,并指出传统的典型相关分析是该共享子空间方法的一个特例;基于以上共享子空间分析方法,本文提出了基于共享子空间(Shared Subspace)的多视角哈希模型。该模型利用共享子空间方法实现多视角数据间的语义关联性挖掘。在共享子空间中通过结合基于聚类驱动的迭代量化哈希模型,有效实现了多视角数据的联合索引。