【摘 要】
:
随着互联网、新媒体和移动设备等技术的爆发式增长,网络中充斥着大量因缺乏标注而难以发挥其价值的图像,图像语义理解作为计算机对图像内容解释以及描述的关键性技术,能够有效解决图像标注不完善等问题,并广泛应用于图像检索、图像标注、图像解析等领域。深度学习在图像语义理解上有着广泛的应用,但由于在前期的研究中忽视了图像和语料库中场景因素对描述语句的重要影响,导致现有神经网络模型的图像描述效果不理想,同时,由于
论文部分内容阅读
随着互联网、新媒体和移动设备等技术的爆发式增长,网络中充斥着大量因缺乏标注而难以发挥其价值的图像,图像语义理解作为计算机对图像内容解释以及描述的关键性技术,能够有效解决图像标注不完善等问题,并广泛应用于图像检索、图像标注、图像解析等领域。深度学习在图像语义理解上有着广泛的应用,但由于在前期的研究中忽视了图像和语料库中场景因素对描述语句的重要影响,导致现有神经网络模型的图像描述效果不理想,同时,由于之前的文本生成模型层级较浅,难以充分利用图像特征生成描述语句,在一定程度上也影响了语句的准确性和丰富性。针对上述问题,本文对图像特征提取、语料库信息提取以及描述语句生成模型进行了研究和改进,具体工作如下:(1)在图像特征提取部分,为了更好地获取图像中的场景、人物、物体以及它们之间的关系,针对数据集中缺少场景和物体信息的情况,本文提出了一种基于迁移学习的图像场景提取方法,用于构建更具场景特征提取能力的模型。该模型首先分别在大规模场景数据集Places365和大规模物体数据集Image Net上训练Res Net和Faster R-CNN模型,然后将参数迁移至本模型中,实现图像场景特征和物体特征的提取,这两种特征相互优化相互完善,物体特征补充了场景信息,场景特征明确了物体信息,使图像文本描述更加准确丰富。(2)在语料库场景信息提取部分,为了更好地描述场景信息,准确使用与场景对应的词汇,本文提出了语料库场景信息提取算法,利用LDA对语料库中的文本进行分析,通过文本中的词汇识别场景,得到文本中场景与词汇之间的联系,使模型在新图像生成描述过程中大概率使用与该图像场景相关的词汇,一定程度上缩小了生成图像描述时词汇的选择范围。(3)在描述语句生成部分,为了充分利用前面获得的图像、语料场景信息以及物体信息,本文引入双层LSTM,通过使用两层LSTM单元之间的上下文信息,增强了模型对图像场景信息和语料库场景信息的复用程度,使底层LSTM能够更好地将图像中的一些具体信息(例如场景、物体及其属性)传递到顶层LSTM,进而在文本描述时大量且准确地使用与场景相关的词汇,解决了单层LSTM描述能力有限、生成语句准确率较低的问题。最后将本文提出的方法分别在Flickr8K、Flickr30K、MSCOCO数据集中进行实验验证,并且使用BLEU、METEOR、ROUGH-L和CIDEr-D四种指标评估分析。实验结果表明,本文融入图像场景、物体信息以及语料库场景信息后,描述语句的准确率得到明显提升,尤其在MSCOCO数据集上,BLEU-1指标相较于原始模型增幅达到11.4%,与经典模型Deep-Vis对比,增幅也提升17.1%。由此可见,本文所提模型效果显著,相较于原始模型,性能得到很大提升,与其他主流方法相比,也有一定的优势。
其他文献
乙型肝炎病毒(Hepatitis B virus,HBV)是一种小型包膜病毒。慢性乙肝病毒感染是造成慢性肝病的重要原因之一,有极大机率发展成为肝炎、肝硬化甚至肝癌,在全球范围内大约有2.5亿人慢性感染HBV。与很多病原体一样,HBV利用多种策略能够逃逸宿主的免疫监视,或干扰免疫信号途径,诱导免疫抑制。然而HBV逃避宿主免疫应答的分子机制目前尚不完全清楚。程序性细胞死亡蛋白-1(PD-1)及其配体(
为了减少路面反射裂缝的产生,有效控制水泥粉煤灰稳定碎石基层在养护初期(1~3d)产生收缩裂缝,本文引入微裂技术。微裂技术指的是在水泥稳定类基层的养护初期,利用振动压路机对
农村问题历来是国家关注的重点所在。近代以来,随着城乡区域间经济联系的日益密切,作为中间媒介的农村商品市场成为反映农村社会状况的一面镜子。冀中地区位于河北省中部,是华北平原的重要组成部分。为了解近代以来冀中地区农村商品市场的发展状况,一定程度上弥补前人对区域社会经济史研究的不足,本文选择近代冀中地区的农村商品市场作为研究对象,从农村商品市场的变迁来考察近代农村社会的转型与发展。本文第一章试从自然、社
轮箍断裂是火车安全运行的最大威胁之一。分析轮箍断裂裂纹临界尺寸对解决和预防轮箍断裂问题具有重要意义。本文以组合式车轮的轮箍为研究对象,借助有限元分析轮箍在各种载
在“中国制造2025”规划的大背景下,限制我国制造业发展的一个不容忽视的问题是债务融资成本较高,而我国制造业中民营企业又占据了相当大的比重,其在解决社会新增就业、保证国家财政收入等方面起到了至关重要的作用。有效降低民营制造企业债务融资成本问题已成为理论界研究的重要课题。围绕此问题,专家学者们从不同角度进行了一系列研究,其中内部控制作为企业在经济活动中建立的一种相互制约的业务组织形式和职责分工制度,
目的:硼亲和材料(boronate affinity material,BAM)可选择性地捕获含顺二羟基物质,包括糖蛋白、核酸、多糖、糖苷、儿茶酚类等物质,因此被科学家们广泛关注。但传统BAM仅能在碱性条件下实现特异性捕获,而部分含顺二羟基物质长期在碱性条件下存在不稳定,易氧化、降解。因此,本文制备了两种能在弱酸性或中性pH值条件下捕获含顺二羟基物质的新型BAM。方法:1.在聚醚醚酮(polyet
斜拉桥在运营过程中受到各种自然或人为灾害的影响使拉索发生损伤,拉索是斜拉桥的主要承重构件,是最敏感的部位,所以拉索的损伤直接影响整个斜拉桥的安全。这将直接使拉索索
当前,在我国城市桥梁和公路桥梁建设不断发展的情况下,由于空间或地形等的影响,许多桥型不得不选择斜桥,并且其截面主要采用箱形梁的型式。尤其是在城市中,桥位要服从道路网
天线是无线通信系统的关键部件,其指标不仅影响整个系统的性能,而且也是系统中最占体积的部件。本文研究了Ku波段的双极化喇叭平板阵列天线,该天线结构新颖、馈电简单,整体厚度较薄。本文的主要工作是:1.提出了阶梯波导喇叭的单元天线方案。从单元角锥喇叭天线入手,对相同频段下的角锥喇叭天线做了仿真分析之后,结合加工的工艺要求,将角锥喇叭一步步过渡到阶梯波导喇叭天线。2.比较了单面带状线和双面带状线馈电结构的
随着城市汽车保有量的大幅增加,传统地下车库的弊端逐渐显现,其存在车位利用率低、运营成本高等劣势,为弥补传统地下车库的这些缺点,国家大力发展地下智能停车库。泊车机器人作为智能车库中的车辆移载设备,具有重大的研究意义。本文针对地下智能停车库中泊车机器人的结构及控制系统进行设计,并完成了机器人的样机制作与性能测试实验。本文首先对泊车机器人进行需求分析,结合机器人的工作场景和运动特点对机器人的机械结构进行