【摘 要】
:
随着数字多媒体技术、移动互联网、物联网和云存储的高速发展,各行各业积累的多媒体数据呈现出爆炸式增长趋势,全球已进入多媒体大数据时代。这些庞大的多媒体数据资源蕴含着丰富的经济价值和社会价值,为国民经济与社会发展带来了新的挑战和契机。随着多媒体数据量的迅猛增长,如何对其进行高效的存储、管理和分析,已经成为国内外学术界和工业界高度关注的问题。基于哈希学习的最近邻搜索技术具有索引速度快、占用存储空间小等优
论文部分内容阅读
随着数字多媒体技术、移动互联网、物联网和云存储的高速发展,各行各业积累的多媒体数据呈现出爆炸式增长趋势,全球已进入多媒体大数据时代。这些庞大的多媒体数据资源蕴含着丰富的经济价值和社会价值,为国民经济与社会发展带来了新的挑战和契机。随着多媒体数据量的迅猛增长,如何对其进行高效的存储、管理和分析,已经成为国内外学术界和工业界高度关注的问题。基于哈希学习的最近邻搜索技术具有索引速度快、占用存储空间小等优势,是解决大规模多媒体数据管理和分析的有效技术手段。现有基于哈希的最近邻搜索方法在处理单一数据类型时比较有效。而在实际应用中,图像、视频、音频、文本等多媒体数据具有样本海量、模态多样、语义互联等独特性质。针对大规模多模异构的多媒体数据,如何设计高效的哈希方法,实现跨模态语义相似性搜索,还有待于深入研究。基于此,论文针对海量多媒体数据,充分考虑其多模异构语义互联特性,分别面向单一模态和多模态两种数据模式,从模态内高层语义相似性搜索、模态间底层特征相似性搜索和模态间高层语义相似性搜索三个层次,较系统地研究了基于哈希的最近邻搜索问题。主要的研究内容概括如下:1.在单模态数据语义相似性搜索方面,提出一种保持约束信息的半监督哈希方法。在现有的半监督单模态哈希方法中,原始数据的低维表示系数可以较好地保持数据间的约束关系,但当将低维表示系数量化为哈希码时,较大的量化误差会影响哈希码间语义约束关系的保持。针对此问题,本文提出一种保持约束信息的半监督哈希方法。首先将数据用聚类中心表示,从而保持原始数据间的近邻结构;其次,通过最大化判别性汉明距离和方差,将数据投影到一个低维判别子空间中,使投影系数保持数据间的语义约束关系;最后,对投影系数进行最优量化,使哈希码在保持语义约束关系的同时具有较小的量化误差。实验结果表明,该方法产生的哈希码可以较好地保持原始数据间的语义约束关系,较现有方法具有更高的搜索精度。2.在多模态数据底层特征相似性搜索方面,提出一种基于语义主题的无监督多模态哈希方法。大多数现有的无监督多模态哈希方法首先将不同模态数据映射到低维子空间中,然后对连续的低维表示系数进行量化得到哈希编码。这种先松弛再量化的优化策略忽视了哈希编码的固有离散特性,具有较大的量化误差,影响了搜索精度。鉴于此,本文提出基于语义主题的无监督多模态哈希方法,通过快速有效地挖掘图像和文本数据中的隐含主题,并根据主题和数据的包含关系得到离散哈希编码,避免了松弛策略带来的量化误差问题。在标准数据库上的跨模态最近邻搜索实验表明,该方法较现有方法具有训练时间短、检索精度高的优势。3.在多模态数据高层语义相似性搜索方面,提出一种基于类标一致矩阵分解的有监督多模态哈希方法。现有的有监督多模态哈希方法大多通过构建数据间的成对相似关系学习哈希编码。然而,在大规模数据集上构建成对相似矩阵具有训练样本数平方级的存储和计算开销,从而导致这些方法不能有效处理大规模数据。同时,将类标转换为成对相似关系失去了数据的类别信息,影响同类数据哈希码间相似性的保持。针对上述问题,本文直接利用训练数据的类标信息指导哈希的学习过程,提出基于类标一致矩阵分解的有监督多模态哈希方法。考虑到不同模态的数据具有语义关联,该方法将多模态数据映射到潜在语义空间,并且保证相同类标的数据,在语义空间中具有相同的表示系数。因此,通过对表示系数进行量化得到的哈希编码和原始数据的类标具有一致性关系,从而在跨模态语义相似性搜索任务中具有更高的精度。标准数据集上的大量对比实验结果表明,该方法较现有方法具有更好的性能。4.在多模态数据高层语义相似性搜索方面,进一步提出多模态判别式二值嵌入方法提高搜索精度。已有的有监督多模态哈希方法在哈希学习过程中忽略了哈希编码的判别性,导致不同类别数据的哈希码不容易被区分,从而影响了搜索精度。针对此问题,本文提出多模态判别式二值嵌入方法。首先,将哈希码的学习问题表示成分类问题,保证哈希函数产生的哈希码具有良好的可区分性。其次,根据类标信息挖掘多模态数据中的内在结构信息。最后,让哈希编码保持数据间的内在结构信息,从而使同类数据的哈希码相似。因此,该方法增强了哈希编码的判别性能,进一步提高了有监督多模态哈希方法的搜索精度。大量实验结果表明,该方法在大规模跨模态最近邻搜索任务中,具有较高的精确率和良好的计算效率。综上,本文从模态内高层语义相似性搜索、模态间底层特征相似性搜索和模态间高层语义相似性搜索三个方面,提出四种不同的哈希算法,用于提升基于哈希的最近邻搜索的准确性和效率。理论分析和大量实验结果表明了所提出方法的可行性和相对于已有方法的优越性。
其他文献
具有线性约束和可分结构的凸优化模型在半定规划、图像处理、压缩感知、机器学习等领域应用广泛.如何充分利用问题的可分结构,设计有效且收敛的求解算法是最优化领域的一个热门课题.交替方向乘子法(ADMM)由于简单、易于实现以及适用范围广等优点成为应用最广泛的算法之一,并由此掀起了研究一阶分布式算法的热潮.本文针对三种不同结构的可分凸优化问题,基于ADMM和算子分裂算法基本框架设计一阶算法,并系统研究它们的
反应扩散方程(系统)的时空传播已被广泛关注和研究,因为它能够很好地描述和解释众多自然现象,如物种入侵和疾病传播等.行波解和整体解是时空传播理论的重要组成部分,对其研究具有理论意义和应用价值.需要指出的是,目前源于两个行波的整体解已有较多的结果,然而源于三个或三个以上行波的整体解的研究结果还十分有限,尤其是关于环境齐次反应扩散系统和环境非齐次扩散方程的源于三个行波的整体解的研究未曾见到任何结果,因此
MSVL(Modeling,Simulation and Verification Language)是一种时序逻辑程序设计语言,是投影时序逻辑(Projection Temporal Logic,PTL)的可执行子集。MSVL主要用于形式化建模、仿真和验证并发系统以及交互式系统,但其不能有效地建模和表达实时系统中的时间约束和中断等行为以及和时间相关的性质,使其在实时系统中应用受到限制。本文对MS
随着数字计算机技术的普及与发展,计算机控制系统已被广泛地应用到包括工业自动化系统在内的各个领域,并成为自动控制的一项核心技术。因此作为计算机控制理论基础的采样系统理论,一直都是控制领域的研究热点并得到很多学者的重视。在采样系统中,控制器在每个采样时刻决定从现在到下一采样时刻的控制量,这相当于在相邻两个采样时刻之间系统处于开环状态。如何为给定的连续时间系统设计采样控制器是采样系统理论的一个核心问题。
随着科学技术的不断进步和人类对外太空的不懈探索,空间飞行器的飞行任务也变得日益复杂和多样化。姿态控制是空间飞行器完成各种空间任务的前提和保障。空间飞行器在执行空间飞行任务时,不仅要考虑模型不确定性对控制特性的影响,同时还要考虑外部干扰的影响。此外,空间飞行器动力学模型的高度非线性,也是姿态控制器设计时面临的一个重要挑战。近年来,由于空间飞行器结构及飞行任务变得日益复杂,为了更加圆满地完成外太空探索
复杂微纳米结构的光学特性研究在超材料设计和制备、空间光场调控等领域具有广泛的应用前景,也是当前研究热点课题之一。各类微纳米表面结构或膜系结构制备中表面微粗糙度或缺陷的存在对其光学特性会产生明显的影响,研究具有微缺陷的微纳米结构复合光散射特征,对微纳米膜系结构的设计、无损检测、光学操控和超材料研究的发展与应用具有重要的研究意义。本文主要研究了不同微纳米结构介质表面光场特性以及与单、双或者周期排布粒子
在过去三十年中,人们深入研究了离散事件系统的建模、调度、控制、故障诊断以及不透明性等。在为离散事件系统设计控制器时,基于模型的方法可方便描述系统行为。其中最为人熟知的是由Ramadge和Wonham(RW)共同提出的监督控制理论,该理论提供了一个强大且统一的方法,以用于控制器自动求解,确保了系统不会违反用户给定的控制需求。然而,经典的监督控制理论面临的主要障碍是状态爆炸问题,即系统的状态空间会随着
电磁(光)波与聚集粒子间的相互作用作为国际上研究的热点课题,在粒度分析、大气环境监测、微波遥感、显微成像、生物医学诊断等领域有着广泛的应用。对于有形波束研究,目前主要集中在有形波束场的产生、传输和调控及对单粒子的散射研究,对于两个或多个各向同性多层球粒子以及手征球形粒子与有形波束的相互作用仍然是国际上比较新颖的课题,值得进一步研究。本文基于经典电磁学理论研究了聚集各向同性介质球、各向同性分层球及手
随着无线网络中智能设备的普及,网络节点被赋予智能自主功能以决策其通信行为。在智能无线网络中,网络节点将本能地展示出自私行为而非无私的合作行为。例如,当以牺牲自己有限的资源为代价来转发其它节点的数据包时,网络节点期望满足其个人的目标,也就是最大化其传输速率或者最小化其资源的消耗。基于此,将由展示出自私行为的网络节点所组成的无线网络称为自私无线网络。在该网络场景中,网络节点的自私行为,被称为“节点自私
全球范围内爆炸式的移动业务量和移动设备数目的增长对无线网络运营商提出新的挑战。为应对移动通信网络的数据洪流,在当前网络部署更大密度的网络节点可实现更高的频谱复用效率,已被学术界和企业界视为下一代移动通信网络的关键技术之一。然而,网络节点的不规则部署将无可避免地造成小区间干扰强度的增大;在这种干扰受限系统中,小区边缘用户受到的干扰问题尤为严重。因此,异构小区间的干扰问题已成为提升频谱效率和网络容量的