论文部分内容阅读
互联网的多媒体资源广泛呈现出跨媒体(Cross-media)特性,即不同类型的数据及其丰富的社会属性之间存在着各式各样的复杂关系。跨媒体数据的增长给传统的多媒体检索与分析的研究带来了新的挑战:一方面,巨大用户量和便捷访问方式带来的海量数据迫使我们提高传统的多媒体存储与计算效率;另一方面,不同模态的多媒体数据(如文本、音频、视频、图像等)与用户的行为之间相互作用形成了复杂关联关系,合理地利用这些关联关系可以更好地对多媒体内容进行理解。针对上述的两方面的挑战,本文提出了一系列面向高维跨媒体数据的哈希算法,大大提高了海量数据的存储与检索效率。与此同时,本文针对不同模态跨媒体数据间的关联关系提出了基于超图和稀疏表达的建模与挖掘算法,将跨媒体的数据关联与多媒体的内容分析相结合,提高了多媒体检索和内容理解的精度。 本文的主要工作可以总结为如下几个方面: 考虑到社会媒体站点中的异构数据的高阶复杂的关联,本文引入超图(hypergraph)对关联数据进行建模,最大程度地保留和利用了跨媒体信息。在此基础上,本文提出了基于超图的谱哈希算法(HypergraphSpectralHashing)。该算法将超图中的节点映射为紧凑的二进制编码,大大提高了数据的存储和检索效率。基于该算法实现的多媒体检索应用,不但有着比传统检索方法更高的效率,也更好地利用了数据之间的关联关系,实现了数据的跨模态查询。 在哈希索引方面,为更好地利用数据的局部相似结构,本文进一步提出了样条回归哈希算法(SplineRegressionHashing)。在学习哈稀编码时,该算法强调保持数据的局部相似性,并用样条函数(splinefunction)对数据的局部结构进行建模。为了防止过拟合(over-fitting),该算法也同时考虑了数据的全局结构,并在一个统一的目标函数中同时对训练数据的哈希编码与面向测试数据的哈希函数进行联合求解,从而大大提高了哈希算法在近邻搜索(Nearest-NeighborSearch)中的精度。 当哈希编码的长度足够时,并非所有的哈希位对某一特定数据点都具有相同的贡献。因此,本文提出了核化稀疏哈希(KernelizedSparseHashing)算法,该算法针对不同的数据只激活与之相关的少数哈希位。与此同时,核函数也被引入到该方法中以适应不同的数据分布和相似度度量。 在跨媒体数据关联挖掘方面,为更好地对图像和其标签之间的关联关系进行建模,本文提出了语义单元图(SemanticUnityGraph)模型。该模型将每一对图像与标签的二元组看作一个语义单元(SemanticUnity),并且用不同的超边(hyperedge)连接存在关联的语义单元以最终形成语义单元图。本文将语义单元图应用到了图像与标签的联合聚类(co-clustering)和标签细化(TagRefinement)的应用中,达到了更好的聚类与细化效果。 在跨媒体数据中,存在着许多用户的行为数据,如不同多媒体数据的来源或者上传者信息。为更好地借助上述用户信息提高对多媒体数据分类与内容理解的精度,本文提出了基于上下文关系的联合稀疏编码(PersonalizedJointSparseCoding)框架。该框架将来自不同用户上传的图像集合作为一个整体由训练图像进行稀疏编码。考虑到来自相同用户的图像有更大的语义相关性,基于上下文关系的联合稀疏编码要求这些图像重建后的编码具有相似的稀疏结构。在此框架下,我们可以更好地对图像的内容进行表达与重建,以取得更高的分类准确度。