【摘 要】
:
静态图像中的目标识别是计算视觉的基本任务。通过提供目标相关信息,如类别、位置等,目标识别成为连接图像底层识别任务和高层应用的一项关键技术。而多类目标检测正是实现目标识别的一种途径,它以检测框的方式标记目标,并得到检测框对应目标的类别,因而能够从图像中提取相对完整的目标相关信息。虽然针对多类目标检测的研究不断取得进展,但目前仍存在一些问题。其中包括:其一,不同目标可能存在不同的类内差异性和类间相似性
论文部分内容阅读
静态图像中的目标识别是计算视觉的基本任务。通过提供目标相关信息,如类别、位置等,目标识别成为连接图像底层识别任务和高层应用的一项关键技术。而多类目标检测正是实现目标识别的一种途径,它以检测框的方式标记目标,并得到检测框对应目标的类别,因而能够从图像中提取相对完整的目标相关信息。虽然针对多类目标检测的研究不断取得进展,但目前仍存在一些问题。其中包括:其一,不同目标可能存在不同的类内差异性和类间相似性,不同图像背景千差万别,因此仅用单一检测模型获得的目标信息难以实现对不同目标的检测;其二,目标检测通常被建模为二分类问题,这样的建模方式忽略了样本之间的顺序关系,尤其是对信息和列信息的作用;其三,由于被建模为二分类问题,因此对目标的描述多采用词标签,难以获得更为丰富的目标描述。针对上述问题,本文尝试通过建模物体内部的结构来获得更强的检测模型,通过将目标检测问题建模为排序问题来挖掘更多的样本信息,并在此基础上生成对目标更丰富的语言描述。本文的主要工作和研究成果包括:(1)提出了一种排序可变形部件模型(Ranking Deformable Part Model,DPM, RDPM)。该模型在利用可变形部件模型(Deformable Part Model,DPM)获取目标内部结构的基础上,进一步引入排序形式的目标函数。本文证明了该目标函数为一个泛凹-凸规划(Generalized Concave-Convex Procedure,GCCCP)问题,进而提出了一个该问题的优化算法。在公开数据集上的实验表明,RDPM具有比DPM更好的检测性能。(2)提出一种针对目标检测问题的目标排序框架,并将这一框架应用于DPM的k-best结果集。通过集成多个排序器来构建适用于目标检测的排序算法,本文提出了 Bagged LambdaMART为目标排序的底层模型,并在动态样本集上训练得到了性能良好的排序模型。实验表明,目标排序框架大大提升了 DPM的性能,在多个类上达到了当时最好的性能。(3)提出了一种基于可变形部件模型的图像语言描述自动生成模型。基于物体内部结构的目标检测结果集包含目标类别、目标位置和子部件布局三类信息,模型首先将这三类信息与语言中的单元建立对齐关系——通过规则将目标类别对应于名词、将目标位置对应于位置介词,通过分类方法将子部件布局对应于形态词。之后,在对齐关系的基础上,提出了一种涵盖句子聚合和表层生成的描述生成算法。实验表明,与通过现有深度学习模型得到的描述相比,本文提出的图像描述生成模型不仅可以生成多句描述,还可以生成更完整的针对目标位置和目标形态的描述。在此基础上,本文实现了一个以基于物体内部结构的目标检测为核心的图像描述自动生成演示系统以及一个基于对齐模型的图像检索演示系统。
其他文献
随着网络新型业务的与日俱增,大容量与灵活性的特征逐渐凸显,一方面大容量特征迫使光纤资源在频域维度几乎使用殆尽,单芯光纤的传输容量已经逼近香农极限,迫切需要探索空域维度进一步提升光纤通信系统的传输容量。另一方面具有时域特性的灵活性提前预留业务大量涌现,如何协同分配时域与频域资源亟需探讨。为应对上述挑战,光网络虚拟化技术能够通过切分底层资源,使得用户利用底层物理资源作为一种服务而不必感知实现细节,能够
车辆自组织网络(Vehicular Ad-hoc Networks,VANET)作为智能交通系统的基础信息承载平台受到了工业界和学术界的广泛关注。然而,随着汽车行业的迅速发展,复杂的交通环境和爆发式增长的通信需求与有限频谱资源间的矛盾日益突出。作为反映车辆自组织网络性能的关键指标之一,网络容量的研究对VANET的理论研究和应用具有深远的意义。GuPta和Kumar首先提出了传送容量(Transpo
为了支撑剧增的移动多媒体业务需求并满足高频谱效率和高能量效率目标,业界先后提出了云无线接入网络和异构云无线接入网络。由于实际网路中业务随机到达和信道时变,基于业务队列的动态无线资源优化研究需要考虑队列时延的影响。本论文对云无线接入网络和异构云无线接入网络的基于业务队列的动态无线资源优化理论与方法进行了研究。首先针对云无线接入网络,先后对协作多点传输中的动态无线资源分配、面向预编码优化的动态无线资源
随着云计算和数据中心的高速发展,数据中心业务在网络中占有越来越大的比重,推动着底层互联光网络的技术更新。为了满足数据中心业务大容量、低时延和动态灵活的要求,支持弹性带宽的频谱灵活光网络成为了数据中心互联的重要备选方案。与此同时,在新型数据中心业务的驱动下,光网络的控制平面被要求更加灵活、智能和开放。因此,如何实现面向数据中心业务的控制与优化是一个重要的研究课题。论文围绕着光网络的控制技术,主要从互
智能手机和平板电脑等功能强大的移动设备的流行,开启了通信的新篇章,但要求提升容量密集型智能应用的效率,这也使得第四代(4G)网络不能满足未来的容量需求。有鉴于此,移动通信行业开始转向第五代(5G)网络的研发,实现用户无处不在的宽带高速服务体验。基于云计算的无线接入网络(C-RAN)是5G网络的一种重要组成,它将云计算技术融入传统的蜂窝系统,实现了大规模协作信号处理和组网。尽管C-RAN能增强频谱效
极化和轨道角动量是电磁波除了具有的幅度、相位、频率之外的另外两个基本的物理特征。在无线通信系统中运用极化信号以及多模态轨道角动量处理将开拓无线频谱资源利用的两个全新的维度,也可以完善和丰富无线信号的分析、处理与传输理论,能够在很大程度上有效缓解目前有限的频谱资源日益匮乏的突出难题,同时也可为解决未来天地一体化的无线通信系统中的容量提升、异构网络的融合、通信系统的绿色、节能等热点问题开辟新的途径。然
无线通信安全在现代社会与生活中占有非常重要的地位,在许多应用场景中,例如无线传感器网络(WSNs,Wireless Sensor Networks),其通信节点体积小、资源受限,实现高安全性信息保护极具挑战性。研究针对无线物理层安全技术,本论文选题具有重要的理论意义和广阔的应用前景。本文基于稀疏信号处理针对物理层安全技术进行深入研究,重点分析了无线通信信息安全的两个主要阶段:安全认证和安全传输。主
云计算的高效和大数据时代的来临,使得云存储系统因其海量的存储空间,而得到广泛关注和使用。面对云存储系统的种种安全威胁,数据通常经过加密处理再存储在云服务器上。加密存储给用户检索其感兴趣的数据带来了诸多困难,密文检索是一种解决该问题的有效方式。所谓密文检索,即通过隐藏的关键字等相关信息,查找到对应的加密数据。但是,云服务器不是完全可信赖的,这在一定情况下会导致一些与数据相关的关键字等敏感信息的泄露,
大数据时代的到来为高阶高维信号采集和处理带来了大量新的需求和挑战。解决这些需求的一个有希望的研究方向是,通过利用数据间的稀疏或低秩表达以及其他结构化约束,许多高阶高维数据集可以在不丢失数据显著特征的同时,极大地减少其内在维数。进而针对不同的信号处理问题,在使用经典技术推理不可行的条件下,仍能进行可靠的理论推断和算法推导。长时间以来,大部分的研究工作利用了数据集所固有存在的简洁数据表达(即稀疏和低秩
随着信息技术的飞速发展,信息系统成为现代产品和服务的核心构件,是关键基础设施建设和运用的重要依赖。由于信息系统的脆弱性和运行时功能的非预期性,这种高度依赖性对国家关键基础设施形成了巨大风险。鉴于此,确保技术领域依据信息系统体系结构的发展,相继提出了软件确保、系统确保和服务确保的理念,旨在降低信息技术和信息系统应用过程中的不确定性。在确保技术不断发展的同时,信息系统一方面在原有的技术框架内变得越来越