基于深度学习和上下文语义的视觉内容识别与分析研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hanqianghuoer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速进步以及深度学习展现出强大的性能,基于图像和视频的各种应用也得到了前所未有的发展。然而,伴随着这些应用给日常生活带来便利的同时,也给社会带来了许多潜在的负面影响。因此,如何高效、准确地从这些纷繁复杂的海量数据中甄别出有用的信息和过滤有害的信息,已经是大数据环境下亟待解决的问题。随着深度学习的发展,计算机视觉任务的应用领域也得到了空前的扩展,包括:图像分类、目标识别、目标检测、图像分割、对象跟踪等。  本文将在深度学习的框架下,以四个计算机视觉的典型应用为基础,通过结合多种不同的上下文关系,开展面向大数据的视觉内容的识别与分析研究。这四个任务分别是:成人内容识别、特定图像检索、自然场景解析和人像妆容迁移。  首先,针对成人内容识别任务中类别空间稀少和正负样本空间内样本多样化导致的分类难的问题,提出基于高层语义的细到粗策略和基于多上下文混合建模的联合决策方案。传统成人内容识别通常都是二分类问题(“是成人”或“不是成人”),而复杂的样本会导致部分样本类内距大于类间距,增大分类器训练的困难。本文提出的细到粗策略,通过在训练中细化类别来改善分类器的性能。此外,通过全局上下文、局部上下文和跨上下文等多种上下文建模方式,从不同的角度去理解样本,最大限度地解决样本多样化问题。与传统特征融合方式不同,策略融合并不直接融合特征,它在最大限度保证基于分类的全局上下文准确性的同时,利用基于检测的局部上下文信息生成置信度较高的决策来尽力修正被误判的样本,从而实现召回率和准确率的同时提高。此外,模块化的设计方案,允许通过更新全局上下文建模或局部上下文建模实现整个网络性能的提升。  其次,针对场景解析任务中对象尺度较小、交互性多(遮挡)、隐藏性强(易湮没于复杂的背景中)等特性带来的对象识别困难的问题,提出一种基于深度学习的对象区域增强网络。该网络集成了针对任务设计的两个核心模块:对象区域增强策略和黑洞填充策略。前者将检测到的语义置信度较高的对象区域直接对应到卷积特征图的特定类别通道上的局部区域,并通过加权特征来改进上下文关系,完成对困难对象区域的识别;后者通过屏蔽额外背景类来避免解析网络将部分困难区域判定为额外背景类的错误。此外,模块化的设计方案使模型不但可以通过更换模块实现整体解析性能的提升,还可以将两个策略应用到其他现有的场景解析网络中。  然后,针对以人脸解析为基础的典型应用—妆容迁移中的两个难点问题:(1)如何获得精确的人脸解析结果;(2)如何按需保持(如:脸型、五官)和迁移(如:唇彩、眼影)人像的特征,提出了对称加权交叉熵损失和深度局部妆容迁移网络。前者对特定的局部上下文区域进行加权,并强制对眼影、嘴唇等特殊区域进行对称性约束;后者利用不同类型的特征分别描述形状敏感和纹理敏感两种局部区域,最后通过迭代算法逐渐将局部妆容特征从参考人像迁移到未化妆的人像上。端到端的生成网络,不但可以产生自然的妆容迁移效果,还可以实现妆容浓淡程度的自由调节,这使得该系统的可用性大大增强。  最后,针对大数据环境下图像检索效率和性能的问题,提出一种基于深度学习的层次化深度语义哈希方案。该网络可以端到端地同时输出样本的高层语义和哈希编码。通过基于概率的语义级相似性和哈希级相似性的融合相似性计算方案,首先利用几乎零开销的高层语义信息过滤大量语义不相关的样本,然后再利用哈希编码在小很多的候选建议集中完成相似性检索。该方案在百万级的Imagenet数据集上,可以保证在检索性能不降低的前提下,实现大约150倍的速度提升。  综上所述,本文所研究的多种上下文语义融合策略,不但在计算机视觉的理论层面具有一定的参考价值,更关键的是本文的研究对于设计和开发鲁棒、实用的应用系统也具有一定的借鉴意义。
其他文献
随着信息技术的发展,异构分布式计算机系统以其低成本、高效率的特点得到人们的广泛关注。在异构分布式计算机系统的研究过程中,任务调度算法决定了并行程序是否能够充分利用系
人体运动捕捉技术是虚拟现实、计算机视觉和计算机图形学领域研究的热点和难点之一,被广泛应用于人体动画、运动分析、人机交互、模拟训练、生物力学研究等领域。人体运动捕获
本文对医学图像可视化移动立方体算法的二义性进行了研究,分析了该课题的研究背景及意义、国内外的研究现状,了解了面绘制及相关技术,重点研究了移动立方体算法的基本原理、主要
SSL协议作为电子商务中最重要的信息安全技术之一,是当前研究的热点。SSL协议位于TCP/IP协议模型的网络层和应用层之间,使用TCP来提供一种可靠的端到端的安全服务,它使客户端
伴随着虚拟现实技术和视觉技术的快速发展,三维虚拟人逐渐成为虚拟现实领域的研究热点,为实现虚拟人的个性化,三维虚拟人头部模型是不可或缺的部分。虚拟人的三维头部建模研
精确勾画出四维 CT(Four-Dimensional Computed Tomography,4D-CT)所有时相中的肿瘤区(Gross Tumor Volume,GTV)能够最大程度地减小内部肿瘤区(Internal Gross Tumor Volume)
图像识别属于人工智能的一部分,是当前学术前沿,诞生了众多的研究分支。本文选择了对图像识别的基础算法加以研究,分别为图像相似度、边缘检测和物体轮廓定位方法,并提出了新
目前,基于内容的商标检索是商标查重的一种重要的技术手段,该技术主要通过计算机自动地对图像进行特征提取以及特征匹配,最终返回与待检索图像相似的图像,避免了基于类目或文本的
多示例学习是一种新的机器学习框架,是机器学习领域中的热门的研究方向。近年来,有监督学习在很多应用领域中已经取得了的成功。然而,在现实应用中,许多问题依然难以用简单的示例
随着Internet网络的快速发展,产生了越来越多的针对个人的网络服务,这就需要越来越多的敏感数据要在公共Internet网络上进行传输。因为这些敏感信息关系到网络用户的个人财产安