论文部分内容阅读
互联网技术的快速发展促使多媒体数据(Multimedia Data)成为“最大的数据”之一,因具有数量多、复杂性高、多样性、高维且多模态等特点,对实现高效检索提出了更高的要求。哈希(Hashing)技术将数据编码为一组二进制哈希码,紧凑的二进制表示可在汉明空间进行高效成对比较,在大规模数据的高效相似性检索中具有极大优势。多媒体大数据时代,利用哈希技术学习多媒体数据更加有效的语义特征表示并实现高效检索成为迫切需要解决的问题。此外,研究发现语义信息能够在哈希算法中发挥至关重要的作用,因此哈希学习中利用语义信息的有监督哈希算法比仅使用未标记数据的无监督哈希算法具有更好的准确性。本文开展多媒体数据检索任务的语义引导哈希算法研究工作,探索标签语义、成对相似度语义和拓扑语义,逐步提升哈希检索性能,主要研究内容和贡献如下:1)提出了融合标签语义的多媒体数据哈希检索算法。训练数据扩展语义标签可有效弥补多媒体数据的异构模态语义鸿沟。现有面向多媒体数据的哈希检索方法存在两个问题,一是“松弛+舍入”哈希优化策略会导致显著的量化误差,二是预先构造图结构以表征多媒体数据样本间关系会增加计算压力。基于上述考虑,提出了一种面向跨模态哈希检索任务(Cross-modal Hashing Retrieval)的离散潜层语义跨模态哈希(Discrete Latent Semantic Cross-modal Hashing,DLSCMH)算法。该算法在统一的哈希学习框架中同时发现异构多模态数据的潜在共享空间,通过显式的语义标签增强哈希码的语义表达能力。为求解哈希码,提出了一种迭代离散哈希优化策略,通过直接学习二进制哈希码降低量化损失。另外,为提高多模态哈希检索(Multi-modal Hashing Retrieval)性能,提出了一种有监督离散多模态哈希(Supervised Discrete Multi-modal Hashing,SDMH)算法。该算法利用多模态特征和有监督类别标签进行判别哈希码学习,支持非常高效的离散哈希优化。2)提出了嵌入成对相似度语义的多模态哈希算法。利用成对相似度语义建模多媒体数据样本间的语义相关性,提升哈希算法的检索性能。首先,提出了一种基于动态查询自适应的在线多模态哈希(Online Multi-modal Hashing with Dynamic Query-adaption,OMH-DQ)算法。该算法设计了一种自加权融合策略,将互补的多模态特征信息自适应地保存到哈希码中。在成对相似度语义的监督下学习哈希码,增强其语义表达能力,避免对称相似矩阵分解导致的计算和存储压力。离散哈希优化策略既提高了运算效率又避免了量化误差。无参数的在线哈希模块可根据动态查询内容自适应地学习查询哈希码。其次,提出了一种自适应在线多模态哈希(Flexible Online Multi-modal Hashing,FOMH)算法,为流式多媒体数据学习判别哈希码。该算法通过自适应多模态二值投影自动学习模态权重,及时捕获流式样本的变化。通过非对称在线监督哈希策略,增强哈希码的语义表达能力。通过离散在线优化策略直接更新哈希码,避免在线学习过程中传播二进制量化误差。3)提出了基于拓扑语义的多模态哈希算法。独立映射数据样本与其语义标签会忽略语义间复杂的拓扑结构。因此,有效捕获并建模语义标签间的相关性可提高哈希检索性能。提出了一种自适应图卷积多模态哈希(Flexible Graph Convolutional Multi-modal Hashing,FGCMH)算法,可在完整和不完整的数据集上实现多模态哈希检索。采用图卷积网络保存模态内结构信息、融合结构信息并消除异构模态鸿沟,在高层标签空间中建模语义标签间的相互依赖关系并指导判别哈希学习。结合自适应多模态融合损失、分类损失、量化损失和判别哈希学习损失四种损失,学习多模态融合描述符的紧凑哈希码。